Lineare Algebra und Analytische Geometrie

Größe: px
Ab Seite anzeigen:

Download "Lineare Algebra und Analytische Geometrie"

Transkript

1 Lineare Algebra und Analytische Geometrie Manuel Kauers Institut für Algebra Johannes Kepler Universität

2 Version: 24. Juni 26 2

3 Inhalt Teil I Algebraische Strukturen 5 Mengen Relationen Funktionen Gruppen Ringe Körper Teil II Vektoren und Matrizen 39 7 Vektoren Matrizen Gleichungssysteme Lineare Unabhängigkeit und Rang Inhomogene Systeme Determinanten Teil III Vektorräume und Lineare Abbildungen 84 3 Vektorräume Basis und Dimension Konstruktionen Lineare Abbildungen und Isomorphie Koordinatendarstellungen Der Dualraum Teil IV Anwendungen 2 9 Affine und Projektive Geometrie Farbräume Graphentheorie C-finite Folgen Kodierungstheorie Lineare Algebra in Maple, Mathematica und Sage

4 Teil V Eigenwerte Polynome Diagonalisierbarkeit Annihilierende Polynome Der Satz von Cayley-Hamilton Invariante Unterräume Die Jordan-Normalform Teil VI Skalarprodukte 9 3 Metrische, normierte und euklidische Räume Positivdefinitheit Orthogonalsysteme Adjungierte Abbildungen Projektionen und Isometrien Die Singulärwertzerlegung Teil VII Modultheorie Grundbegriffe Konstruktionen Freiheit und Torsion Lineare Gleichungssysteme über Ringen Die Smith-Normalform Kurze Vektoren in Gittern Teil VIII Algorithmische Lineare Algebra Komplexität Dünn besetzte Matrizen Strukturierte Matrizen Schnelle Multiplikation Numerische Algorithmen Symbolische Algorithmen Teil IX Anwendungen Eliminationstheorie Hauptachsentransformation PageRank Rationale erzeugende Funktionen Positive Polynome Signalverarbeitung

5 Teil I Algebraische Strukturen 5

6 Mengen Die Aufgabe der Mathematik ist es, Zusammenhänge zwischen Eigenschaften von (abstrakten) Objekten zu erkennen und zu beschreiben. Objekte sind z. B. Zahlen, Funktionen, Punkte usw. Eigenschaften sind z. B. gerade/ungerade, prim, negativ, stetig, usw. Ein Zusammenhang ist z. B. x > y y > z x > z (wenn x größer ist als y und y seinerseits größer als z, dann folgt daraus, dass x auch größer als z ist). Objekte werden zu Mengen (engl. set) zusammengefasst. ( Sei A die Menge aller Objekte mit der Eigenschaft....) Man schreibt x A, falls x ein Objekt ist, das die Eigenschaft hat und x A, falls nicht. Im Fall x A sagt man, x ist ein Element der Menge A. Mengen sind selbst auch abstrakte Objekte, können also in anderen Mengen enthalten sein. Zum Beispiel gilt {} und {} {{}}, jedoch {{}} und {} {}. Bei der Konstruktion von Mengen muss man aufpassen, dass man sich nicht in Widersprüche verwickelt. Beispiel. Sei A die Menge aller Mengen M mit der Eigenschaft M M. Für die Menge A gilt dann A A A A Also: A ist genau dann selbst in A enthalten, wenn A nicht in A enthalten ist. Das kann nicht sein. Haben wir hier etwas verbotenes getan? Für Juristen gilt der Grundsatz Was nicht explizit verboten ist, ist erlaubt. In der Mathematik gilt dagegen: Was nicht explizit erlaubt ist, ist verboten! Wir müssen also, wenn wir mit Mengen hantieren wollen, vorher festlegen, welche Gesetze für die Theorie der Mengen gelten sollen. Die folgenden haben sich als zweckmäßig erwiesen: Axiom.. Sind a,..., a n endlich viele Objekte, dann existiert eine Menge A mit der Eigenschaft x A x = a x = a 2 x = a n. Notation: {a,..., a n } := A. Im Fall n = schreibt man := {} und nennt diese Menge die leere Menge. 2. Die Menge N := {,, 2,... } der natürlichen Zahlen existiert. 3. Ist A eine Menge von Mengen (d. h. jedes Element von A ist eine Menge), so existieren die Mengen a A a und a A a mit x a A a a A : x a, x a A a a A : x a. Die Menge a A a heißt die Vereinigung (engl. union) der Mengen in A, die Menge a A a heißt der Schnitt (engl. intersection) der Mengen in A. Ist A = {a,..., a n } eine endliche Menge von Mengen, so schreibt man statt a A a und a A a auch n i= a i oder a a 2 a n bzw. n i= a i oder a a n. 6

7 4. Seien A, B Mengen, f : A B eine Funktion (siehe Abschnitt 3), und p: A {T, F}. Dann existiert eine Menge C mit y C x A : p(x) = T f(x) = y. Notation: { f(x) : x A p(x) } := C; im Fall f = id auch { x A : p(x) } := C. 5. Seien A,..., A n Mengen. Dann existiert auch die Menge C mit z C x A x n A n : z = (x,..., x n ) Dabei ist (x,..., x n ) das Tupel bestehend aus den Komponenten x,..., x n. Notation: A A 2 A n := C. Man nennt die Menge C das kartesische Produkt der Mengen A,..., A n. Statt A A A schreibt man auch A n. Beispiel.. {,, 2} = {, 2} = {2, } = {, 2, 2, 2, 2, } 2. {, 3, 4, 5} {3, 5, 7, 8} = {, 3, 4, 5, 7, 8} 3. {, 3, 4, 5} {3, 5, 7, 8} = {3, 5} 4. { x 2 : x N x prim } = {4, 9, 25, 49, 2,... } 5. { Geburtsdatum(S) : S ist Vorlesungsteilnehmer } 6. {, 2} {a, b} = {(, a), (2, a), (, b), (2, b)} 7. {a, b} {, 2} = {(a, ), (a, 2), (b, ), (b, 2)} Definition. Seien A, B Mengen.. Die Mengen A, B heißen (zueinander) gleich (engl. equal), geschrieben A = B, falls gilt x : (x A x B). 2. A heißt Teilmenge (engl. subset) von B, notiert A B, falls x : x A x B. 3. A heißt Obermenge (engl. superset) von B, notiert A B, falls x : x B x A. 4. A und B heißen (zueinander) disjunkt (engl. disjoint), falls A B =. 5. A \ B := { a A : a B } heißt das Komplement von B in A. 7

8 Satz. Seien A, B, C Mengen.. Wenn A B und B C, dann A C 2. A = B A B B A 3. Ist B eine Menge von Mengen, so gilt A b B b = b B (A b) 4. Ist B eine Menge von Mengen, so gilt A b B b = b B (A b) 5. Ist B eine Menge von Mengen, so gilt A \ b B b = b B (A \ b) und A \ b B b = (A \ b). b B 6. A B A A B 7. A = B B = A, A B = B A, A B = B A Beweis.. Annahmen: A B und B C zu zeigen: A C. Sei x A beliebig. Nach Annahme A B folgt per Definition von, dass x B. Daraus folgt nach Annahme B C per Definition von, dass x C. Da x ein beliebiges Objekt von A war, ist also gezeigt: x : (x A x C). Also gilt A C, was zu zeigen war. 2. Aussagen der Form A B zeigt man, indem man zunächst A B und dann B A zeigt. Annahme: A = B zu zeigen: A B B A. Aus Symmetriegründen genügt es, A B zu zeigen. Das Argument für B A geht dann genauso. Sei x A beliebig. Nach Annahme A = B und per Definition von = gilt x B. Da x beliebig war, folgt x B. Annahmen: A B und B A. zu zeigen: A = B. Nach Definition von = ist zu zeigen x : (x A x B). Sei x ein beliebiges Objekt. Aus der Annahme A B folgt x A x B und aus der Annahme B A folgt x B x A. Beides zusammen gibt x A x B. 3. Wegen Punkt 2 kann man die Gleichheit zweier Mengen zeigen, indem man zeigt, dass jede eine Teilmenge der anderen ist. Sei x A b B b beliebig. Wir zeigen x b B (A b). Dazu ist zu zeigen b B : x A b. Nach Annahme gilt x A und x b B b B : x b. 8 b, d. h.

9 Wähle ein b B mit x b. Dann ist wegen x A auch x A b. Es folgt b B : x A b, und damit die Behauptung. Sei x b B (A b) beliebig. Wir zeigen x A b B b. Dazu ist zu zeigen x A und x b B b, d. h. b B : x b. Wähle b B mit x A b. Dann gilt x A und x b. Also b B : x b, also x b B b, also x A b B b. 4. Sei x A b B b beliebig. Wir zeigen x b B (A b). 5., 6., 7. Übung. Dazu ist zu zeigen b B : x A b. Nach Annahme gilt x A oder x b B b, d. h. b B : x b. Für beliebiges b B gilt also x A oder x b, also x A b. Da b B beliebig war, folgt b B : x A b, und damit die Behauptung. Sei x b B (A b) beliebig. Wir zeigen x A b B b. Dazu ist zu zeigen x A oder x b B b, d. h. x A oder b B : x b. Wir zeigen: Wenn x A ist, dann muss b B : x b gelten. Sei b B beliebig. Dann gilt nach Voraussetzung x A b, und daraus folgt x A oder x b. Nach Annahme gilt x A, also x b. Da b beliebig war, folgt also b B : x b, und damit die Behauptung. Beispiel. A = {x, y, z}, B = {, 2, 3, 4} Satz 2. Seien A, B, C Mengen.. (A B) C = (A C) (B C) 2. (A B) C = (A C) (B C) x (x, ) (x, 2) (x, 3) (x, 4) A y (y, ) (y, 2) (y, 3) (y, 4) A B z (z, ) (z, 2) (z, 3) (z, 4) } 2 {{ 3 4} B Beweis.. Sei x (A B) C beliebig. Zu zeigen: x (A C) (B C). Nach Definition von gilt x = (x, x 2 ) für gewisse x, x 2 mit x A B und x 2 C. Aus x A B folgt x A und x B. Demnach gilt (x, x 2 ) A C und (x, x 2 ) B C, also (x, x 2 ) (A C) (B C). Sei x (A C) (B C) beliebig. Zu zeigen: x (A B) C. 9

10 Nach Definition gilt x A C x = (x, x 2 ) mit x A, x 2 C und x B C. x = (x, x 2 ) mit x B, x 2 C } {{ } x A x B x }{{} 2 C } x A B {{ } x = (x, x 2 ) (A B) C 2. Übung. Axiom. Sei A eine Menge. Dann existiert eine Menge B mit x : x B x A. Man schreibt P(A) := B und nennt diese Menge die Potenzmenge (engl. power set) von A. Beispiel. Für A = {, 2, 3} ist P(A) = {, {}, {2}, {3}, {, 2}, {, 3}, {2, 3}, {, 2, 3}}. A {, 2} {, 3} {2, 3} {} {2} {3} Ein weiteres Axiom zur Mengenlehre kommt später in Abschnitt 4. Darüber hinaus gibt es einige weitere, die wir nicht brauchen werden, zum Beispiel eines, das besagt, dass jede Kette a b, b c, c d, d e,... nach endlich vielen Schritten abbrechen muss, d. h. die Schachtelungstiefe bei Mengen von Mengen von Mengen von... darf nicht unendlich werden. 2 Relationen Definition 2. Sei A eine Menge. Eine Teilmenge R A A heißt Relation auf A. Statt (x, y) R schreibt man xry. Beispiel = {(x, y) R R : x ist kleiner oder gleich y} ist eine Relation. Die Menge R 2 kann man sich als die Punkte einer Ebene vorstellen. Eine Teilmenge von R 2 kann man dann dadurch darstellen, dass man die entsprechenden Punkte der Ebene markiert. In der folgenden Abbildung sind alle Punkte (x, y) markiert, die zur Relation gehören.

11 y x 2. A die Menge aller Städte in Österreich mit mehr als Einwohnern (25). R die Menge aller (x, y) A A für die gilt: es gibt eine direkte Zugverbindung von x nach y. In der Informatik nennt man so etwas einen Graphen. Ein Graph ist also ein Paar G = (V, E), wobei V eine Menge und E eine Relation auf V ist. Elemente von V nennt man Knoten (engl. vertex) und Elemente von E Kanten (engl. edge). Salzburg Linz Wien Innsbruck Graz 3. Ist A die Menge aller Teilnehmer der Vorlesungsklausur, und ist R die Menge aller 5-6 (x, y) A A, für die gilt, dass x und y die gleiche Note bekommen, so ist R eine Relation auf A. 4. Teilbarkeit (engl. divisibility): A = Z, R = {(x, y) A A : z Z : x z = y}. Statt xry schreibt man typischerweise x y. Zum Beispiel gilt 3 5 und ist eine Relation auf P(A): = {(U, V ) P(A) P(A) : U V }. 6. Ist M die Menge aller Menschen, so ist := {(x, y) M M : x mag y} eine Relation 5-6 auf M. Zum Beispiel könnte gelten Heinz Erika.

12 Definition 3. Sei A eine Menge und R eine Relation auf A.. R heißt reflexiv, falls gilt x A : xrx und irreflexiv, falls gilt x A : (xrx). 2. R heißt symmetrisch, falls gilt: x, y A : xry yrx und antisymmetrisch, falls x, y A : (xry yrx) x = y 3. R heißt transitiv, falls gilt x, y, z A : (xry yrz) xrz. 4. R heißt total, falls gilt x, y A : xry yrx Beispiel. Die Relationen aus dem vorangegangenen Beispiel haben folgende Eigenschaften: Bsp reflexiv ja nein ja ja ja unklar irreflexiv nein ja nein nein nein nein symmetrisch nein ja ja nein nein nein antisymmetrisch ja nein nein ja ja nein transitiv ja nein ja ja ja nein total ja nein nein nein nein nein Definition 4. Sei A eine Menge und R A A eine Relation auf A. Wenn R reflexiv, transitiv und antisymmetrisch ist, dann heißt R eine Halbordnung auf A. Ist R außerdem total, so heißt R (Total-)Ordnung (engl. order(ing)) auf A. Beispiel.., und sind Halbordnungen auf P(A), R, N. ist sogar eine Totalordnung, aber und sind es nicht. 2. Auf M = Z Z wird eine Halbordnung definiert durch (a, a 2 ) (b, b 2 ) : a b a 2 b 2, wobei mit auf der rechten Seite die übliche Ordnung auf Z gemeint ist. Es gilt dann zum Beispiel (3, 5) (7, 8). Bei dieser Halbordnung handelt es sich nicht um eine Totalordnung, weil zum Beispiel die Elemente (3, 7) und (5, 3) nicht miteinander vergleichbar sind, d.h. es gilt weder (3, 7) (5, 3) noch (5, 3) (3, 7). 2

13 Definition 5. Sei A eine Menge und R A A eine Relation auf A. Wenn R reflexiv, symmetrisch und transitiv ist, dann heißt R eine Äquivalenzrelation. Beispiel.. Für jede Menge A ist die Gleichheitsrelation = eine Äquivalenzrelation, denn für alle Objekte x, y, z gilt x = x (Reflexivität), x = y y = x (Symmetrie) und x = y y = z x = z (Transitivität). Im allgemeinen darf man sich eine Äquivalenzrelation vorstellen als eine abgeschwächte Variante der Gleichheitsrelation, bei der bestimmte irrelevante Eigenschaften ignoriert werden. 2. Sei A = {,,,,,,,,,,,, }. Man kann sich für diese Menge verschiedene Äquivalenzrelationen vorstellen. Hier sind ein paar Möglichkeiten: x y, falls x und y die gleiche Form haben dann gilt z. B. und. x y, falls x und y die gleiche Farbe haben dann gilt z. B. und. x y, falls x und y die gleiche Höhe haben dann gilt z. B. und. x y, falls x und y sich höchstens in der Farbe unterscheiden dann gilt z. B. und. 3. Sei m Z und m := { (x, y) Z 2 : m x y }. Dann ist m eine Äquivalenzrelation auf Z. Es gilt zum Beispiel: Die Kantenmenge V des Graphen G = (E, V ), der durch folgendes Diagramm gegeben ist, ist eine Äquivalenzrelation auf E = {, 2, 3, 4, 5} Ist A die Menge aller Schüler einer Volksschule und R = {(x, y) A A : x und y gehen in dieselbe Klasse}, dann ist R eine Äquivalenzrelation auf A. Klassenbildung ist symptomatisch für Äquivalenzrelationen. 3

14 Definition 6. Ist eine Äquivalenzrelation auf A und ist x A, so heißt [x] := {y A : x y} die Äquivalenzklasse von x (bezüglich ). Man schreibt A/ := { [x] : x A } für die Menge aller Äquivalenzklassen von Elementen von A. Beispiel. Was sind bei den Äquivalenzrelationen aus dem vorherigen Beispiel die Äquivalenzklassen?. Bezüglich = ist die Äquivalenzklasse eines Elementes x A genau die Menge {x}, die nur dieses Element enthält. 2. Die genannten Äquivalenzrelationen auf A = {,,,,,,,,,,,, } teilen A in folgende Äquivalenzklassen auf: gleiche Form: {,,,, }, {,,, }, {,,, } gleiche Farbe: {,,,, }, {,,,, }, {,, } gleiche Höhe: {,,,,,, }, {,,,, } gleich bis auf Farbe: {,, }, {, }, {, }, {, }, {,, }, { } 3. Die beiden Zusammenhangskomponenten {, 2} und {3, 4, 5} sind die Äquivalenzklassen. 4. Wir haben und so weiter. [] 3 = {..., 3,, 3, 6, 9,... } [] 3 = {..., 2,, 4, 7,,... } [2] 3 = {...,, 2, 5, 8,,... } [3] 3 = [] 3 [4] 3 = [] 3 5. In diesem Fall sind die Äquivalenzklassen genau die Schulklassen. Satz 3. Es seien A eine Menge, eine Äquivalenzrelation auf A, und x, y A. Dann gilt:. x y [x] = [y] 2. x y [x] [y] = 3. A = C A/ C 4

15 Beweis.. Annahme x y, zu zeigen: [x] = [y]. Aus Symmetriegründen genügt es, [x] [y] zu zeigen. Sei also z [x]. Dann gilt: z [x] Def. = x z Sym. = z x Ann. + Trans. = z y Sym. = y z Def. = z [y]. Annahme: [x] = [y], zu zeigen: x y. Wegen Reflexivität gilt jedenfalls x [x]. Wegen [x] = [y] also auch y [x], und damit nach Definition auch x y. 2. Annahme: x y, zu zeigen: [x] [y] =. Widerspruchsbeweis: wäre [x] [y], so gäbe es ein z [x] [y]. Für dieses z gilt dann z x und z y, also wegen Symmetrie und Transitivität auch x y, im Widerspruch zur Annahme x y. Annahme: [x] [y] =, zu zeigen: x y. Wäre x y, dann wäre [x] = [y] nach Teil, also [x] [y] = [x], da zumindest x [x] (wegen Reflexivität). Damit ist x y ausgeschlossen und es bleibt nur x y. 3. Sei y A. Zu zeigen: y [x] A/ [x]. Das folgt direkt aus y [y] A/. Sei y [x] A/ [x]. Dann gibt es ein [x] A/ mit y [x]. Wegen [x] A folgt y A. Wir haben in Definition 3 verschiedene Eigenschaften eingeführt, die eine Relation haben kann oder auch nicht. In den Definitionen 4 und 5 haben wir Relationen betrachtet, die mehrere dieser Eigenschaften zugleich erfüllen. Eine Übersicht über weitere Arten von Relationen und ihre Beziehungen zueinander gibt das folgende Diagramm. Ein Pfeil A e B zwischen zwei Relationsarten bedeutet, dass jede Relation vom Typ A eine Relation vom Typ B mit der Eigenschaft e ist. 5

16 Relation transitiv transitive Relation reflexiv Quasiordnung irreflexiv Striktordnung symmetrisch Äquivalenzrelation antisymmetrisch Halbordnung total Totalordnung 3 Funktionen Idee: Objekte anderen Objekten zuordnen. x f(x) A f B Definition 7. Seien A, B Mengen und R A B.. R heißt linkseindeutig, falls gilt: (x, y ), (x 2, y 2 ) R : y = y 2 x = x 2 2. R heißt rechtseindeutig, falls gilt: (x, y ), (x 2, y 2 ) R : x = x 2 y = y 2 3. R heißt linkstotal, falls gilt: x A y B : (x, y) R 4. R heißt rechtstotal, falls gilt: y B x A : (x, y) R 6

17 Beispiel.. Linkseindeutig: B B erlaubt nicht erlaubt 2. Rechtseindeutig: A A erlaubt nicht erlaubt 3. Linkstotal: A A erlaubt nicht erlaubt 4. Rechtstotal: B B erlaubt nicht erlaubt 7

18 Definition 8. Seien A, B Mengen, R A B.. Ist R rechtseindeutig, so heißt R eine partielle Funktion und statt (x, y) R schreibt man y = R(x). 2. Ist R außerdem linkstotal, so heißt R Funktion oder Abbildung (engl. map) und statt R A B schreibt man R: A B. Für die Menge aller Funktionen R: A B schreibt man B A. 3. Eine linkseindeutige Funktion heißt injektiv. 4. Eine rechtstotale Funktion heißt surjektiv. 5. Eine Funktion, die sowohl injektiv als auch surjektiv ist, heißt bijektiv. R A B rechtseindeutig partielle Funktion linkstotal Funktion linkseindeutig Injektion rechtstotal Surjektion rechtstotal Bijektion linkseindeutig Beispiel.. Die Identitätsfunktion id A : A A mit id A (x) = x für alle x A ist eine Funktion. 2. f : R R, f(x) = x ist eine partielle Funktion, aber keine Funktion. Man sollte deshalb besser schreiben f = {(x, y) R 2 : y = x }. 3. f : R \ {} R, f(x) = x ist eine Funktion. Diese Funktion ist injektiv. Zum Beweis betrachtet man x, x 2 R \ {} mit f(x ) = f(x 2 ) und zeigt, dass dann x = x 2 sein muss. In der Tat bedeutet f(x ) = f(x 2 ), dass = x 2, und also x = x 2, wie gefordert. x 4. f : R R, f(x) = x 2 ist eine Funktion. Diese Funktion ist nicht injektiv, weil z. B. y = 4 zwei verschiedene Urbilder hat (nämlich x = 2 und x = 2). Sie ist auch nicht surjektiv, weil z. B. y = gar kein Urbild hat. 5. f : R R, f(x) = e x ist injektiv, aber nicht surjektiv. 8

19 6. f : R { x R : x > }, f(x) = e x ist injektiv und surjektiv, also bijektiv. 7. f : R R, f(x) = x + +x 2 ist surjektiv, aber nicht injektiv. 8. f : R R, f(x) = x 3 ist bijektiv. Für eine Funktion ist es nicht wesentlich, dass man sie durch einen Funktionsausdruck beschreiben kann. Tatsächlich lassen sich fast alle Funktionen nicht durch eine endlich große Formel beschreiben. Auch (und vor allem) solche Funktionen sind immer mitgemeint, wenn es heißt Sei f eine (beliebige) Funktion. Eine bijektive Funktion von A nach B existiert offenbar genau dann, wenn A und B gleich viele Elemente haben. Man spricht bei einer Bijektion deshalb auch von einer :-Zuordnung. Für eine Menge A kann man an dieser Stelle die Mächtigkeit (engl. cardinality) A dadurch definieren, dass man sagt A := n, falls es eine bijektive Abbildung f : A {, 2,..., n} gibt. Gibt es für ein bestimmtes n N eine solche Abbildung, so sagt man, A ist endlich (engl. finite). Anderenfalls sagt man, A ist unendlich (engl. infinite) und schreibt A =. Wenn A und B beide endlich sind und A = B gilt, dann gibt es immer eine Bijektion f : A B. Aber Vorsicht: aus A = B = folgt im allgemeinen nicht, dass es eine Bijektion f : A B gibt. Man kann zum Beispiel zeigen, dass es keine Bijektion von Q nach R gibt, obwohl beide Mengen unendlich sind. Definition 9. Sind f : A B und g : B C Funktionen, so heißt g f : A C mit (g f)(x) := g(f(x)) die Verkettung (oder Komposition) von f und g. Satz 4.. Die Verkettung injektiver Funktionen ist injektiv. 2. Die Verkettung surjektiver Funktionen ist surjektiv. 3. Die Verkettung bijektiver Funktionen ist bijektiv. Beweis.. Seien f : A B und g : B C injektive Funktionen und h = g f. Zu zeigen: h ist injektiv, also x, x 2 A : h(x ) = h(x 2 ) x = x 2. Seien also x, x 2 A mit h(x ) = h(x 2 ), d. h. g(f(x )) = g(f(x 2 )). Da g nach Annahme injektiv ist, folgt zunächst f(x ) = f(x 2 ). Und daraus folgt, da nach Annahme auch f injektiv ist, x = x 2, was zu zeigen war. 2., 3. Übung. Satz 5. f : A B ist genau dann bijektiv, wenn es eine Funktion g : B A gibt mit g f = id A und f g = id B. Diese Funktion g ist dann eindeutig bestimmt und ihrerseits bijektiv. 9

20 Beweis. Annahme: f : A B ist bijektiv, zu zeigen: Es gibt g : B A mit g f = id A. Betrachte g = { (y, x) B A : (x, y) f A B }.. g ist rechtseindeutig, weil f nach Annahme injektiv und damit linkseindeutig ist. 2. g ist linkstotal, weil f nach Annahme surjektiv und damit rechtstotal ist. Damit ist g eine Funktion. Für jedes x A gilt (x, f(x)) f und (f(x), x) g, also g(f(x)) = x. Damit ist gezeigt g f = id A. Für jedes y B gibt es ein x A mit f(x) = y, weil f surjektiv ist. Nach Definition von g gilt dann g(y) = x und damit f(g(y)) = y. Damit ist gezeigt f g = id B. Annahme: Es gibt ein g : B A mit g f = id A und f g = id B. zu zeigen: f ist bijektiv, d. h. injektiv und surjektiv. Injektiv: Seien x, x 2 A mit f(x ) = f(x 2 ). Dann gilt g(f(x )) = g(f(x }{{} 2 )). }{{} =x =x 2 Surjektiv: Sei y B. Nach Annahme gilt f(g(y)) = y, also existiert ein x A, nämlich x = g(y) mit f(x) = y. Eindeutigkeit: Sind g, g : B A zwei verschiedene Funktionen mit g f = g f = id A, dann gibt es zumindest ein y B mit g(y) g(y). Wähle so ein y B und setze x := g(y) und x 2 := g(y). Da f surjektiv ist, existiert x A mit f(x) = y. Wegen g f = g f = id A gilt g(f(x) ) = x und g(f(x) ) = x, }{{}}{{} =y }{{} =x =y }{{} =x 2 also x = x 2. Das ist ein Widerspruch zu der Annahme, dass g und g verschiedene Funktionen sind. Bijektivität: Zu zeigen ist, dass g injektiv und surjektiv ist.. g ist linkseindeutig (also injektiv) weil f rechtseindeutig (da Funktion) ist. 2. g ist rechtstotal (also surjektiv) weil f linkstotal (da Funktion) ist. Beispiel. A f B A g B Das Schaubild für g ergibt sich aus dem Schaubild für f, indem man alle Pfeile umkehrt. Nach dem Satz ist f genau dann bijektiv, wenn dabei wieder eine Funktion herauskommt. 2

21 Definition. Sei f : A B eine Funktion.. Für U A definiert man f(u) := { y B x U : f(x) = y } B und nennt diese Menge das Bild (engl. image) von U unter f. 2. Für V B definiert man f (V ) := { x A y V : f(x) = y } A und nennt diese Menge das Urbild (engl. preimage) von V unter f. 3. Ist f bijektiv und g : B A wie im vorherigen Satz, dann heißt f := g die Umkehrfunktion (oder Inverse) von f. Satz 6. (Homomorphiesatz für Mengen) Sei f : A B eine Funktion.. Durch x y f(x) = f(y) wird eine Äquivalenzrelation auf A definiert. 2. Die Funktion g : A A/, g(x) = [x] ist surjektiv. 3. Es gibt eine injektive Funktion h: A/ B so dass f = h g. 4. Diese Funktion h ist eindeutig bestimmt. 5. f ist genau dann surjektiv, wenn h bijektiv ist. A f B g h A A/ B 2

22 Beweis.., 2. Übung 3. Betrachte die Funktion g : A A/ mit g(x) = [x] für alle x A und definiere die Funktion h: A/ B durch h([x] ) = f(x). Das ist möglich, weil [x] = [y] x y f(x) = f(y). (Man sagt, die Definition ist repräsentantenunabhängig, oder h ist wohldefiniert.) h ist injektiv, denn wenn [x], [y] A/ so sind, dass h([x] ) = h([y] ) gilt, dann f(x) = f(y), und dann x y, und dann [x] = [y]. Es gilt f = h g, denn für alle x A gilt h(g(x)) = h([x] ) = f(x). 4. Wenn h: A/ B eine andere Funktion mit f = h g ist, müsste es ein [x] A/ geben mit h([x] ) h([x] ), obwohl doch h([x] ) = h(g(x)) = f(x) = h(g(x)) = h([x] ) gelten soll. 5. Übung Beispiel.. Seien A = {, 2, 3, 4, 5, 6}, B = {a, b, c} und f : a b a c c a. Dann ist A/ = { {, 3, 6}, {2}, {4, 5} } Die Funktionen g und h aus dem Satz sind gegeben durch g : h: {, 3, 6} {2} {, 3, 6} {4, 5} {4, 5} {, 3, 6} {, 3, 6} {2} {4, 5} a b c 2. Seien A = {,,,,,,,,,,,, }, B = {schwarz, weiß, grau, rot}, und sei f : A B die Funktion, die jedem Element aus A dessen Farbe zuordnet: A f schwarz weiß grau rot B 22

23 Die Zerlegung von f in f = h g sieht dann wie folgt aus: schwarz weiß grau g h A A/ B rot 3. Sei A die Menge der Teilnehmer der Vorlesungsklausur, B = {, 2, 3, 4, 5} die Menge der erreichbaren Noten, f : A B die Funktion, die jedem Teilnehmer seine Beurteilung zuordnet. In diesem Fall gruppiert die Teilnehmer entsprechend ihrer Note. Wenn jede Note mindestens einmal vergeben wird, wenn also f surjektiv ist, dann ist A/ = {f ({}), f ({2}), f ({3}), f ({4}), f ({5})}. Wenn dagegen z. B. nur die Noten und 5 vergeben werden, dann ist A/ = {f ({}), f ({5})}, weil dann f ({2}) = f ({3}) = f ({4}) = keine Äquivalenzklassen sind. (Äquivalenzklassen sind niemals leer.) Jedenfalls bildet die Funktion g aus dem Satz jeden Klausurteilnehmer t A auf die Menge [t] aller Teilnehmer ab, die die gleiche Note wie t bekommen. Die Funktion h bildet dann jede dieser Mengen auf die Note ab, die die Teilnehmer dieser Menge bekommen. 4 Gruppen Definition. Sei A eine Menge. Eine Funktion : A A A heißt Verknüpfung. Statt (x, y) schreibt man x y. Sei : A A A eine Verknüpfung.. heißt assoziativ, falls x, y, z A : (x y) z = x (y z) 2. heißt kommutativ, falls x, y A : x y = y x 3. e A heißt Neutralelement (bezüglich ), falls gilt: x A : x e = e x = x. 4. Ist e A ein Neutralelement, so heißt x A invertierbar, falls y A : x y = y x = e. Ein solches Element y heißt dann ein Inverses von x. 23

24 Beispiel.. Sei A = {, 2, 3} und die Verknüpfung : A A A gegeben durch Dann gilt ( ) 2 = 3 und ( 2) =. Diese Verknüpfung ist also nicht assoziativ und sind Verknüpfungen auf Z, Q, R, etc. Diese Verknüpfungen sind assoziativ und kommutativ. ist ein Neutralelement bezüglich + und ist ein Neutralelement bezüglich. 3. Sei A eine Menge und A A die Menge aller Funktionen f : A A. Dann ist die Komposition eine Verknüpfung auf A A, die assoziativ aber im allgemeinen nicht kommutativ ist. Die Identitätsfunktion id A A A ist ein Neutralelement, und eine Funktion f A A ist genau dann invertierbar, wenn sie bijektiv ist. 4. und sind Verknüpfungen auf P(A).. Satz 7. Sei : A A A eine assoziative Verknüpfung.. Sind e, e 2 Neutralelemente von, so gilt e = e Ist e ein Neutralelement von, x A invertierbar, und sind y, y 2 Inverse von x, so gilt y = y 2. Notation: x := y = y Ist x A invertierbar, so ist auch x invertierbar und es gilt (x ) = x. 4. Sind x, y A invertierbar, so ist auch x y invertierbar und es gilt (x y) = y x. Beweis.. Nach Definition gilt x A : x e = e x = x und x A : x e 2 = e 2 x = x. Aus dem ersten folgt mit x = e 2, dass e 2 e = e e 2 = e 2 ist, und aus dem zweiten folgt mit x = e, dass e e 2 = e 2 e = e ist. Aus beidem zusammen folgt e = e e 2 = e 2, wie behauptet. 2. Es gilt x y = e, also y 2 (x y ) = y 2 e, also (y 2 x) y = y 2, also e y = y 2, also y = y 2. 3., 4. Übung. 24

25 Definition 2. Sei A eine Menge und : A A A eine Verknüpfung.. Das Paar (A, ) heißt Magma. 2. Ist assoziativ, so heißt (A, ) eine Halbgruppe (engl. semi group). 3. Eine Halbgruppe mit Neutralelement heißt Monoid. 4. Ein Monoid, in dem jedes Element invertierbar ist, heißt Gruppe (engl. group). 5. Ein[e] Halbgruppe/Monoid/Gruppe heißt abelsch, wenn kommutativ ist. Magma Assoziativität Halbgruppe Kommutativität abelsche Halbgruppe Neutralelement Monoid Kommutativität Neutralelement abelsches Monoid alle Inverse Gruppe Kommutativität alle Inverse abelsche Gruppe Typischerweise verwendet man und als Symbole für Verknüpfungen, wenn man allgemein über Gruppen spricht. Bei konkreten Beispielen für Gruppen ist es üblich, das Symbol + für die Verknüpfung zu wählen, wenn es sich um eine abelsche Gruppe handelt. In diesem Fall schreibt man x statt x für das Inverse von x, und man kann auch z. B. 5x statt x + x + x + x + x schreiben. Für das Neutralelement verwendet man dann typischerweise das Symbol (Null). Handelt es sich nicht um eine abelsche Gruppe, und sind und zu unhandlich, dann kann man auch den Multiplikationspunkt als Verknüpfungssymbol verwenden. Statt x y schreibt man dann auch einfach xy, und statt xxxxx schreibt man dann x 5. Für das Neutralelement bietet sich in diesem Fall das Symbol (Eins) an. Ist (G, ) eine Gruppe, dann nennt man G die Trägermenge der Gruppe. Wenn die Verknüpfung aus dem Zusammenhang klar ist, sagt man auch einfach, G ist eine Gruppe. Beispiel.. Die erste Verknüpfung im vorherigen Beispiel ist nur ein Magma. 2. ({3, 4, 5,... }, +) ist eine Halbgruppe, aber kein Monoid. 3. (N, +), (N \ {}, ), (Z \ {}, ) sind Monoide (Z, +), (Q, +), (Q \ {}, ), (R, +), (R \ {}, ), etc. sind abelsche Gruppen. 25

26 5. Die Menge { x Q : x > } aller positiven rationalen Zahlen bildet zusammen mit der Multiplikation eine Gruppe. Ebenso die Menge aller positiven reellen Zahlen. 6. Ist A eine Menge, so sind (P(A), ), (P(A), ) Monoide, aber keine Gruppen. Definiert man auf P(A) die Verknüpfung : P(A) P(A) P(A), U V := (U V ) \ (U V ), so ist (P(A), ) eine abelsche Gruppe. Das Neutralelement ist dann die leere Menge und jedes Element U P(A) ist zu sich selbst invers. 7. Ist A eine Menge, so ist (A A, ) ein Monoid, aber keine Gruppe. Aber die Menge S(A) := { f A A : f ist bijektiv } bildet zusammen mit der Verkettung als Verknüpfung eine Gruppe. Diese Gruppe ist nicht kommutativ. Man nennt sie Gruppe die symmetrische Gruppe. Statt S({, 2,..., n}) schreibt man auch S n und nennt dann die Elemente Permutationen. Bsp.: π = , π = und = = Mehr über Permutationen in Abschnitt Betrachte ein Quadrat mit den Eckpunkten A, B, C, D. A B D C Eine Symmetrie lässt sich auffassen als eine Funktion {A, B, C, D} {A, B, C, D}, die das Quadrat als Ganzes fest lässt. Das Quadrat hat folgende Symmetrien: σ = A B C D das ist die Spiegelung an der horizontalen Achse D C B A ρ = A B C D das ist die Rotation um 9 B C D A entgegen dem Uhrzeigersinn sowie einige weitere, die sich aus diesen durch Komposition bilden lassen. Die komplette Liste lautet: G = {id, ρ, ρ 2, ρ 3, σ, σρ, σρ 2, σρ 3 }. Diese Menge G bildet zusammen mit der Komposition eine Gruppe, die sogenannte Symmetriegruppe des Quadrats. Die Gruppe ist nicht abelsch; es gilt aber zum Beispiel σρ = ρ 3 σ. 26

27 9. Sei m N \ {} und definiere m durch a m b m a b für alle a, b Z. Dies ist eine Äquivalenzrelation, die Z in m Äquivalenzklassen aufteilt: Definiere +, : Z m Z m Z m durch Z m := Z/ m = { [] m, [] m,..., [m ] m }. [x] m + [y] m := [x + y] m, [x] m [y] m := [x y] m. Diese Definitionen sind repräsentantenunabhängig, d. h. für x, x und y, y mit x m x und y m y gilt stets (x + y) m (x + y ) und (x y) m (x y ). (Beweis: Übung.) (Z m, +) ist eine Gruppe. (Z m \ {[] m }, ) ist ein Monoid. Man kann zeigen, dass dieses Monoid genau dann eine Gruppe ist, wenn m eine Primzahl ist.. Betrachte die sechs Funktionen f i : R \ {, } R \ {, } definiert durch f (x) = x, f 2 (x) = x, f 3(x) = x, f 4 (x) = x x, f 5(x) = x, f 6 (x) = x x. Die Menge G = {f,..., f 6 } bildet zusammen mit der Komposition eine Gruppe.. Sei G = { x R : < x < } und definiere x y := x + y + xy, wobei die Symbole auf der rechten Seite die übliche Bedeutung haben. Dann ist (G, ) eine abelsche Gruppe. Man sieht sofort, dass kommutativ ist, dass ein neutrales Element ist, und dass x das Inverse von x ist. Assoziativität lässt sich leicht nachrechnen: x+y +xy (x y) z = + z + x+y +xy z = x + y + z + xyz + xy + xz + yz = x + y+z +yz + x y+z = x (y z). +yz Jetzt muss man sich aber auch noch davon überzeugen, dass tatsächlich eine Verknüpfung ist. Dazu ist zu zeigen, dass + xy für alle x, y G (sonst wäre für manche x, y G der Ausdruck auf der rechten Seite nicht definiert), und dass x+y +xy < für jede Wahl von x, y G (sonst würde uns die Verknüpfung von manchen x, y G aus der Gruppe herauswerfen). Zunächst ist klar, dass mit x < und y < auch xy < ist, und damit xy >, und damit + xy >, also insbesondere + xy. Als nächstes gilt mit x < und y < insbesondere x > und y >, und also auch ( x)( y) >. Nun ist ( x)( y) = x y + xy. Also + xy > x + y, also > x+y +xy (denn wir haben ja vorher schon gezeigt, dass + xy > ist). Auf ähnliche Weise zeigt man x+y +xy >. Die Gruppe (G, ) erklärt die Addition von Geschwindigkeiten in der speziellen Relativitätstheorie. 27

28 2. Betrachte die Menge E = { (x, y) R 2 : y 2 = x 3 + x 2 + } {O}, die aus den Punkten einer Kurve in der Ebene sowie dem zusätzlichen Symbol O besteht. Jede Gerade durch zwei Punkte dieser Kurve schneidet die Kurve in einem dritten Punkt, wenn man tangentiale Berührungen doppelt zählt, und bei senkrechten Geraden das spezielle Symbol O als den dritten Punkt ansieht. y x Auf E lässt sich eine Verknüpfung + definieren, indem man fordert, dass gelte P + Q + R = O für je drei Punkte P, Q, R E, die auf einer Geraden liegen. Mit dieser Verknüpfung wird E zu einer abelschen Gruppe. Das Neutralelement ist O. Inverse bekommt man durch Spiegelung an der horizontalen Achse. Die Verknüpfung führt man durch, indem man zu gegebenen P und Q zunächst den zugehörigen dritten Punkt bestimmt, und diesen dann noch an der horizontalen Achse spiegelt. y P P y Q x x P + Q P Die Gruppe E ist ein Beispiel für eine sogenannte elliptische Kurve. Solche Gruppen werden in der Kryptographie eingesetzt. 3. Seien A = {a,..., a n }, Ā = {ā,..., ā n } zwei disjunkte (d. h. A Ā = ) Mengen mit A = Ā = n. Betrachte die Elemente von A Ā als Buchstaben und Tupel von Elementen als Wörter, z. B. (a, a 3, ā, a 2 ), (a 3, ā, ā 2 ), etc. Es sei W (A) die Menge all solcher Tupel (von beliebiger aber stets endlicher Länge), in denen nie a i und ā i (mit dem selben Index) unmittelbar nebeneinander stehen. 28

29 Definiere : W (A) W (A) W (A) so, dass w w 2 durch Aneinanderhängen von w und w 2 und anschliessendes Löschen aller Vorkommen (a i, ā i ) und (ā i, a i ) entsteht, zum Beispiel: (a, ā 2, ā 3 ) (a 3, ā, a 2 ) = (a, ā 2, ā, a 2 ). Dann ist (W (A), ) eine Gruppe, die sogenannte freie Gruppe über A. Das Neutralelement ist das leere Wort (). Inverse ergeben sich durch Rückwärtslesen des Tupels und Vertauschen aller a i mit den zugehörigen ā i, zum Beispiel: (a, ā 2, a 3 ) = (ā 3, a 2, ā ). 4. Seien (A, ), (B, ) zwei Gruppen [zwei Halbgruppen, zwei Monoide] und G = A B. Auf G wird durch (a, b ) (a 2, b 2 ) := (a a 2, b b 2 ) eine Verknüpfung : G G G definiert, mit der G zu einer Gruppe [einer Halbgruppe, einem Monoid] wird. Definition 3. Sei (G, ) eine Gruppe. U G heißt eine Untergruppe, falls gilt U und u, v U : u v U u U. Beispiel.. (Z, +) ist eine Untergruppe von (Q, +); (Q, +) ist eine Untergruppe von (R, +). 2. ({ x Q : x > }, ) ist eine Untergruppe von (Q \ {}, ); (Q \ {}, ) und ({ x R : x > }, ) sind Untergruppen von (R \ {}, ). 3. Die Symmetriegruppe des Rechtecks ist eine Untergruppe der Symmetriegruppe des Quadrats. 4. S 3 lässt sich auffassen als Untergruppe von S 5, wenn man sich jede Funktion f : {, 2, 3} {, 2, 3} aus S 3 zu einer Funktion f : {, 2, 3, 4, 5} {, 2, 3, 4, 5} mit f(4) = 4 und f(5) = 5 fortgesetzt denkt. Definition 4. Seien (G, ) und (G 2, ) Gruppen. Eine Funktion h: G G 2 heißt Homomorphismus, falls gilt: x, y G : h(x y) = h(x) h(y). Sei e 2 das Neutralelement von G 2. Die Menge heißt der Kern (engl. kernel) und ker h := h ({e 2 }) = { x G : h(x) = e 2 } G im h := h(g ) = { h(x) : x G } G 2 heißt das Bild (engl. image) von h. Ein bijektiver Homomorphismus heißt Isomorphismus. Wenn es einen Isomorphismus von G nach G 2 gibt, sagt man, G und G 2 sind (zueinander) isomorph. Notation in diesem Fall: G = G2. 29

30 Beispiel.. Die Abbildung h: S 3 S 5, die im vorigen Beispiel beschrieben wurde, ist ein Homomorphismus. Statt zu sagen, S 3 ist eine Untergruppe von S 5, wäre es sauberer zu sagen h(s 3 ) ist eine Untergruppe von S Die Abbildung f : Z Z m, x [x] m ist ein Homomorphismus zwischen den Gruppen (Z, +) und (Z m, +). Es gilt ker f = [] m = mz = {, m, m, 2m, 2m,... }. Der Homomorphismus ist auch mit der Multiplikation verträglich, d. h. es gilt [xy] m = [x] m [y] m für alle x, y Z. 3. Die Abbildung f : R R, x exp(x) ist ein Homomorphismus zwischen (R, +) und (R \ {}, ). 4. Sind (A, ), (B, ) zwei Gruppen und G = A B zusammen mit (a, b ) (a 2, b 2 ) := (a a 2, b b 2 ). Dann ist h: G A, (a, b) a ein Homomorphismus. 5. Die Abbildung f : Z Z 7 \ {[] 7 }, [2] x x [2] x 7 falls x > 7 := [] 7 falls x = ([2] 7 ) x falls x < ist ein Homomorphismus von (Z, +) nach (Z 7 \ {[] 7 }, ). Es gilt im f = {[] 7, [2] 7, [4] 7 } Z 7 \ {[] 7 } und ker f = {, 3, 3, 6, 6,... } Z. Satz 8. Sei h: G G 2 ein Homomorphismus. Dann gilt:. Ist e das Neutralelement von G und e 2 das Neutralelement von G 2, so gilt h(e ) = e ker h ist eine Untergruppe von G. 3. im h ist eine Untergruppe von G 2. h G G 2 ker h e im h e 2 3

31 Beweis.. Es gilt h(e ) = h(e e ) = h(e ) h(e ). Multipliziert man diese Gleichung mit dem Inversen von h(e ) in G 2, so erhält man e 2 = h(e ). 2. Nach Teil gilt zunächst e ker h und damit insbesondere ker h. Darüber hinaus bleibt zu zeigen: für alle u, v ker h gilt u v ker h und u ker h. Seien u, v ker h beliebig. Es gilt h(u) = h(v) = e 2, weil u, v ker h. Folglich gilt: und also u v ker h. h(u v) = h(u) h(v) = e 2 e 2 = e 2, Es gilt e 2 = h(e ) = h(u u ) = h(u) h(u ) = e 2 h(u ) = h(u ). (Daraus folgt übrigens auch h(u) = h(u ).) 3. Nach Teil gilt zunächst e 2 im h. Darüber hinaus bleibt zu zeigen: für alle u, v im h gilt u v im h und u im h. Seien u, v im h beliebig. Dann gibt es a, b G mit u = h(a) und v = h(b). Es gilt u v = h(a) h(b) = h(a b) im h. Außerdem u = h(a) = h(a ) im h. Satz 9. Sei (G, +) eine abelsche Gruppe und H eine Untergruppe von G, und sei definiert durch a b a + ( b) H. Dann ist eine Äquivalenzrelation auf G und G/H := G/ zusammen mit : G/H G/H G/H, [x] [y] := [x + y] ist wieder eine abelsche Gruppe. Beweis. Dass eine Äquivalenzrelation ist, kann man sich zur Übung selbst überlegen. Wir zeigen, dass wohldefiniert ist. Zu zeigen ist, dass für x, x, y, y G mit x x und y y gilt x + y x + y. Aus x x und y y folgt x + ( x ) H und y + ( y ) H. Da H eine Untergruppe von G ist, folgt x + ( x ) + y + ( y ) H. Da G abelsch ist, ist x + ( x ) + y + ( y ) = x + y + ( x ) + ( y ) = (x + y) + ( (x + y )), also gilt x + y x + y, wie behauptet. Um schließlich zu zeigen, dass G/H eine Gruppe ist, überzeugt man sich, dass die nötigen Gesetze erfüllt sind. Assoziativität folgt zum Beispiel aus [x] ([y] [z]) = [x] [y + z] = [x + (y + z)] = [(x + y) + z] = [x + y] [z] = ([x] [y]) [z]. Die Rechnungen für die anderen Gesetze sind ähnlich und bleiben zur Übung überlassen. Beispiel. Sei m N \ {}. Dann ist mz = { mx : x Z } = {..., m,, m, 2m,... } eine Untergruppe von (Z, +). Es gilt Z/mZ = Z m. 3

32 Satz. (Homomorphiesatz für abelsche Gruppen) Es seien (G, +), (G 2, ) abelsche Gruppen und f : G G 2 ein Homomorphismus.. Die Funktion g : G G / ker f, ist ein surjektiver Homomorphismus. g(x) := [x] 2. Es existiert genau ein injektiver Homomorphismus h: G / ker f G 2 mit f = h g. 3. Dieser Homomorphismus h ist genau dann bijektiv, wenn f surjektiv ist. Insbesondere gilt immer G / ker f = im f. Beweis. Nach Satz 6 ist bloß noch zu zeigen, dass die Funktionen g und h Homomorphismen sind. (Beachte: x y x + ( y) ker f f(x + ( y)) = e f(x) f( y) = e f(x) f(y) = e f(x) = f(y), d. h. die hier verwendete Äquivalenzrelation ist ein Spezialfall der Relation aus Satz 6.) Seien x, y G. Wir zeigen zuerst: g(x + y) = g(x) g(y). In der Tat folgt g(x + y) = [x + y] = [x] [y] direkt aus der Definition von aus Satz 9. Damit ist g ein Homomorphismus. Wir zeigen nun: h(x y) = h(x) h(y). In der Tat gilt: h([x] [y] ) = h([x+y] ) = f(x+y) = f(x) f(y) = h([x] ) h([y] ). Damit ist h ein Homomorphismus. Beispiel. Sei f : Z Z 7, f(x) = [3] x 7. Es gilt ker f = 6Z und im f = Z 7 \ {[] 7 }. Die Gruppe (Z 6, +) ist also isomorph zur Gruppe (Z 7 \ {[] 7 }, ) und der Isomorphismus h aus dem Satz erlaubt es, die Multiplikation in Z 7 auf die Addition in Z 6 zurückzuführen. Wählt man f : Z Z 7, f(x) = [2] x 7, so ist ker f = 3Z und im f = ({[] 7, [2] 7, [4] 7 }, ). In diesem Fall ist f nicht surjektiv, und der Satz liefert nur einen Isomorphismus zwischen (Z 3, +) und der Untergruppe ({[] 7, [2] 7, [4] 7 }, ) von (Z 7 \ {[] 7 }, ). 5 Ringe Definition 5. Sei R eine Menge, +: R R R und : R R R seien zwei Verknüpfungen, so dass (R, +) eine abelsche Gruppe ist. Ihr Neutralelement nennen wir Null (Symbol: ), und das Inverse von x R bezüglich + schreiben wir x. Statt x + ( y) schreibt man x y. Statt x y schreibt man auch xy.. (R, +, ) heißt Ring, falls (R, ) eine Halbgruppe ist und gilt x, y, z R : (x + y) z = x z + y z x, y, z R : x (y + z) = x y + x z. 2. Wenn außerdem (R\{}, ) ein Monoid ist, nennt man das Neutralelement Eins (Symbol: ) und (R, +, ) einen Ring mit Eins. 3. Ein Ring (mit oder ohne Eins) heißt kommutativ, falls kommutativ ist. 32

33 Ring kommutativer Ring Ring mit Eins kommutativer Ring mit Eins Wenn man in einer Definition einen Begriff einführt, dann ist man normalerweise bemüht, für den Begriff ein Wort aus der Umgangssprache zu verwenden, das den Sachverhalt der Definition treffend beschreibt. Zum Beispiel haben wir vorher definiert, dass eine Relation R symmetrisch zu nennen ist, wenn gilt xry yrx, und reflexiv, wenn gilt xrx. Theoretisch hätten wir auch das Wort reflexiv für die Eigenschaft xry yrx und das Wort symmetrisch für die Eigenschaft xrx vergeben können, es wäre bloß sehr verwirrend, wenn die gemeinte Eigenschaft nicht mit der üblichen Bedeutung des Wortes zusammenpasst. Der Begriff Ring, der oben eingeführt wurde, ist von zentraler Bedeutung in der Algebra. Es besteht allerdings kein offensichtlicher Zusammenhang mit der umgangssprachlichen Bedeutung des Wortes. Man hätte genauso gut Haus oder Baum als Wort verwenden können. Satz. Sei (R, +, ) ein Ring mit Eins, und sei x R. Dann gilt x = = x und x = ( )x. Beweis. Sei x R beliebig. Es gilt x = x( + ) = x + x. Addiert man auf beiden Seiten (x), so bekommt man x + ( x) = x + x + ( x), also = x + = x, wie behauptet. Der Beweis von x = geht analog. Als nächstes gilt = x = (+( ))x = x+( )x = x+( )x. Damit ist ( )x ein Inverses von x bezüglich +, und wegen der Eindeutigkeit der Inversen muss gelten ( )x = x. Beispiel.. (Z, +, ), (Q, +, ), (R, +, ) sind kommutative Ringe mit Eins. Aber (N, +, ) ist kein Ring, weil (N, +) keine Gruppe ist. 2. Ist A eine Menge, so ist (P(A),, ) ein Ring mit Eins. Dabei ist wie zuvor U V := (U V ) \ (U V ) definiert. Die Null ist und die Eins ist A. 3. Für jedes m N \ {} ist (Z m, +, ) ein kommutativer Ring mit Eins, der sogenannte Restklassenring (engl. residue class ring) modulo m. 4. Sei m N \ {, } und mz = { mx : x Z } = {..., m,, m, 2m,... }. Dann ist (mz, +, ) ein kommutativer Ring, aber ohne Eins. 5. Sei p Z \ {} eine Primzahl und Z (p) die Menge aller rationalen Zahlen u/v Q mit p v. Dann ist Z (p) ein Ring, der sogenannte Ring der p-adischen ganzen Zahlen. 6. Sei (R, +, ) ein Ring. Die Menge R N aller Funktionen f : N R (d. h. aller Folgen in R) bildet einen Ring, wenn man definiert (f + g): N R, (f + g)(n) := f(n) + g(n) (f g): N R, (f g)(n) := f(n)g(n). Allgemeiner kann man statt N hier auch irgendeine andere Menge nehmen. 33

34 7. Die Menge R N bildet auch einen Ring, wenn man + wie vorher definiert, und durch mit c n := (a, a, a 2,... ) (b, b, b 2,... ) := (c, c, c 2,... ) n a k b n k. (Beweis durch Nachrechnen der nötigen Gesetze.) k= Zum Beispiel gilt mit (, 2, 3,... ) (, 2, 3,... ) := (c, c, c 2,... ) c = c = c 2 = a k b n k = a b = k= a k b n k = a b + a b = 4 k= 2 a k b n k = a b 2 + a b + a 2 b =. k= Definiert man X := (,,,,... ), so bietet es sich an, eine Folge (a n ) n= RN in der Form a n X n zu schreiben. Man beachte, dass n= X = (,,,... ) = X = (,,,,... ) X 2 = (,,,,,... ). X n = (,...,,,,,... ). Index n Die oben definierte Multiplikation entspricht dann genau dem üblichen Multiplikationsgesetz für Potenzreihen, freilich ohne dass dabei irgendwo von Konvergenz die Rede ist. Statt R N schreibt man auch R[[X]] und nennt die Elemente formale Potenzreihen (engl. formal power series). 8. Die Teilmenge { } R[X] := a n X n R[[X]] : N N n N : a n = n= ist abgeschlossen unter + und und bildet deshalb selbst auch einen Ring. Man sagt, R[X] ist ein Unterring von R[[X]]. Die Elemente von R[X] heißen Polynome über R. 34

35 Beispiel: (a + a X + a 2 X 2 )(b + b X) = a b + (a b + a b )X + (a 2 b + a b )X 2 + a 2 b X 3 Das Nullpolynom ist das Polynom p = n= a nx n R[X] mit a n = für alle n N. Für alle anderen Polynome gibt es genau einen Index n N, so dass a n und a k = für alle k > n ist. Diesen Index nennt man den Grad des Polynoms (engl. degree), geschrieben deg p := n. Für das Nullpolynom definiert man deg :=. Mehr über Polynome in Abschnitt Sei R ein Ring und G ein Monoid. Betrachte die Menge R[G] aller Funktionen c: G R mit der Eigenschaft c(g) für höchstens endlich viele g G. Für c, c 2 R[G] definiere und (c + c 2 ): G R, g c (g) + c 2 (g) (c c 2 ): G R, g Dann ist (R[G], +, ) ein Ring. h,h 2 G:h h 2 =g Schreibt man die Funktionen c R[G] in der Form c = α g + α 2 g α n g n, c (h ) c 2 (h 2 ). wenn c(g ) = α, c(g 2 ) = α 2,..., c(g n ) = α n und c(g) = für alle g G \ {g,..., g n }, dann entsprechen die obigen Definitionen von + und gerade den gewohnten Rechnenregeln. (Aber Vorsicht: wenn G nicht abelsch ist, ist nicht kommutativ!) Beispiel. Sei R = Z und G = {a, b, c} mit der Verknüpfung, die durch folgende Tabelle definiert ist: Dann gilt zum Beispiel a b c a a b c b b c a c c a b (2a + 3b)(3c 5b) = 6(a c) (a b) + 9(b c) 5(b b) = 6c b + 9a 5c = 9a b 9c. 6 Körper 35

36 Definition 6. Ein kommutativer Ring (K, +, ) heißt Körper (engl. field), falls (K \ {}, ) eine abelsche Gruppe ist. Genau wie im Fall der Ringe ist nicht unmittelbar klar, warum sich der Begriff Körper für diese Struktur eingebürgert hat. Es besteht jedenfalls kein offensichtlicher Zusammenhang zu den Körpern der Geometrie (Würfel, Kugeln, usw.). Der englische Begriff field ist auch nicht besonders gut motiviert. Der Hintergrund ist wahrscheinlich einfach, dass es in der Umgangssprache kein Wort gibt, das den Sachverhalt treffend beschreibt. Satz 2. Sei (K, +, ) ein Körper und x, y K. Dann gilt xy = x = y =. Beweis. Seien x, y K mit xy =. Zu zeigen, x = oder y =. Wir nehmen an, dass x ist, und zeigen, dass dann y = sein muss. Da K ein Körper ist, gibt es in K \ {} zu jedem Element ein Inverses bezüglich. Da x nach Annahme nicht Null ist, existiert also x. Aus xy = folgt dann x xy = x, also y =, also y =, wie behauptet. Beispiel.. (Q, +, ), (R, +, ) sind Körper, aber (Z, +, ) nicht, da z. B. 2 Z nicht bezüglich invertierbar ist. (2 Q natürlich schon). 2. Man kann zeigen, dass (Z m, +, ) genau dann ein Körper ist, wenn m eine Primzahl ist. 3. Sei Q( 2) := { a + b 2 : a, b Q } R. Zusammen mit der üblichen Addition und Multiplikation aus R bildet Q( 2) einen Ring, denn (a + b 2) }{{} Q( 2) + (c + d 2) }{{} Q( 2) = (a + c) + (b + d) 2 }{{} Q( 2) und (a + b 2) (c + d 2) = (ac + 2bd) + (bc + ad) 2, }{{}}{{}}{{} Q( 2) Q( 2) Q( 2) d. h. Q( 2) R ist abgeschlossen unter + und und damit ein Unterring von R. Es ist außerdem ein Körper, denn a + b 2 = a b 2 (a + b 2)(a b 2) a b = } a 2 {{ 2b 2 2 }} a 2 {{ 2b 2. } Q Q }{{} Q( 2) Beachte dabei, dass für a, b immer gilt a 2 2b 2, weil 2 Q. 4. Sei C := R R mit (a, b) + (c, d) := (a + c, b + d) (a, b) (c, d) := (ac bd, bc + ad). 36

37 Dann ist C ein Körper. Man hat dort C = ( R, ) und definiert i := (, ), so dass C = { a + bi : a, b R }. Beachte: i 2 = (, ) (, ) = (, ) =, also i =. Die Elemente von C nennt man komplexe Zahlen. Das Element i C nennt man die imaginäre Einheit. Für eine komplexe Zahl c = a + bi C mit a, b R nennt man Re(c) := a den Realteil und Im(c) := b den Imaginärteil. 5. Sei K ein Körper und R = K[X] der Ring der Polynome über K. Dieser Ring ist kein Körper, aber man kann sich einen Körper überlegen, der K[X] enthält. Und zwar so: Auf R (R \ {}) wird durch (p, p 2 ) (q, q 2 ) u, v R \ {} : (up, up 2 ) = (vq, vq 2 ) eine Äquivalenzrelation definiert. (Beweis: Übung.) Die Elemente von K(X) := (R (R \ {}))/ heißen rationale Funktionen. Statt [(p, p 2 )] schreibt man p p 2 und statt p einfach p. Rationale Funktionen sind also Brüche von Polynomen, und die Äquivalenzrelation gewährleistet das Kürzen und Erweitern von Brüchen. Beachte: Rationale Funktionen sind nicht Funktionen im Sinn von Abschnitt 3, sondern heißen bloß so. In Wahrheit handelt es sich um rein algebraische Gebilde. Es ist deshalb auch egal, ob der Nenner für eine bestimmte Belegung von X mit einem Element von K Null wird. Das Symbol X steht hier nicht für eine Variable, sondern für das Element (,,,,... ) K[X] (vgl. Bsp. 8 nach Def. 5). Jedenfalls gilt: K(X) ist ein Körper, wenn man Addition und Multiplikation definiert durch p + q = p q 2 + p 2 q, p 2 q 2 q q 2 p q = p p 2. p 2 q 2 q q 2 In ganz ähnlicher Weise wie K(X) aus K[X] erzeugt wird, erhält man den Körper Q aus dem Ring Z. 6. Sei K ein Körper und R = K[[X]] der Ring der formalen Potenzreihen über K. Dieser Ring ist kein Körper, da nicht jedes a R \ {} ein multiplikatives Inverses in K[[X]] hat. Zum Beispiel ist a = X nicht invertierbar. Man kann aber zeigen, dass eine formale Potenzreihe a n X n genau dann invertierbar ist, wenn a ist. Das motiviert n= folgende Konstruktion: Betrachte die Menge { } K((X)) := {} a n X n K[[X]] : a Z n= 37

38 Wir schreiben X e n= a nx n oder n=e a n ex n statt ( n= a nx n, e ) und definieren Addition und Multiplikation in der Weise, die durch diese Notation suggeriert wird, also insbesondere (X e a ) (X e 2 a 2 ) := X e +e 2 (a a 2 ), wobei a a 2 das Produkt in K[[X]] bezeichnet. (Beachte: der Koeffizient von X in a a 2 ist genau das Produkt der Koeffizienten von X in a und a 2, also von Null verschieden.) Von verschiedene Elemente X e a K((X)) kann man dann immer in K((X)) invertieren: (X e a) = X e a, wobei a das multiplikative Inverse von a in K[[X]] ist. Die Elemente von K((X)) heißen formale Laurent-Reihen. K((X)) ist ein Körper. Allgemein bedeutet K ist ein Körper, dass man mit den Elementen von K in gewohnter Weise rechnen kann, d. h. dass es in K eine Addition, eine Subtraktion, eine Multiplikation und eine Division gibt, die den gewohnten Rechenregeln gehorchen. Das allein ist für die Theorie der Linearen Algebra entscheidend. Es ist unbedeutend, ob wir in Q oder in R oder in irgendeinem anderen Körper rechnen. Wir werden Definitionen und Sätze deshalb für einen beliebigen Körper K formulieren, anstatt mehrmals für verschiedene konkrete Körper. In Beispielen betrachten wir meist K = Q oder K = R. 38

39 Teil II Vektoren und Matrizen 39

40 7 Vektoren Ab jetzt sei K = (K, +, ) immer ein (beliebiger) Körper. Definition 7. Ein Element von K n = K K heißt Vektor (im engeren Sinne, vgl. Def. 29). Die Addition von Vektoren ist definiert durch +: K n K n K n, (a,..., a n ) + (b,..., b n ) := (a + b, a 2 + b 2,..., a n + b n ). Vektor-Addition Körper-Addition Die Skalarmultiplikation ist definiert durch : K K n K n, α (a,..., a n ) := (α a, α a 2,..., α a n ). Skalarmultipliation Körper-Multiplikation Statt (a,..., a n ) schreibt man auch a. a n. Beispiel. K = R, n = 2. Vektoren repräsentieren Punkte in der Ebene oder Richtungen. x 2 2 {}}{ (2, 3) x (, ) x } {{ } 2 x Bei der Interpretation von Richtungen als Pfeilen ist der Startpunkt des Pfeils ohne Bedeutung. Pfeile, die gleich lang sind und in die gleiche Richtung zeigen, veranschaulichen den gleichen Vektor, selbst wenn ihre Startpunkte verschieden sind. Addition mit einem Vektor entspricht der Verschiebung eines Punktes bzw. der Kombination zweier Richtungen. 4

41 x 2 x 2 2 { (, ) +(2, ) } {{ } 2 }{{} } {{ } 3 (3, 2) } x a b a + b x Skalarmultiplikation entspricht der Streckung oder Stauchung eines Vektors. 2 a a 2 a ( ) a Für n > 2 ist die geometrische Anschauung entsprechend, wenn auch weniger angenehm zu zeichnen. Satz 3. (K n, +) ist eine abelsche Gruppe. Ihr Neutralelement ist := (,..., ). Beweis. Folgt unmittelbar aus der Definition von + und der Tatsache, dass (K, +) eine abelsche Gruppe mit Neutralelement ist. Satz 4. Für alle α, β K und alle v, w K n gilt:. (α + β) v = α v + β v 2. (αβ) v = α (β v) 3. α (v + w) = α v + α w 4. v = v, ( ) v = v 5. αv = α = v = 4

42 Beweis. Übung. Mit Vektoren kann man geometrische Objekte beschreiben. Zum Beispiel ist (a, b, c) := { αa + βb + γc : α, β, γ [, ], α + β + γ = } das Dreieck mit den Eckpunkten a, b, c R n : 3 a + 3 b + 3 c a = a + b + c c = a + b + c a + 2 b + 2 c b = a + b + c Ein Ausdruck der Form α v + + α m v m mit α,..., α m K und v,..., v m K n heißt Linearkombination von v,..., v m. Von besonderem Interesse in der linearen Algebra sind die geometrischen Objekte, die aus allen Linearkombinationen von bestimmten gegebenen Vektoren bestehen. Sind zum Beispiel v, v 2 zwei Vektoren im R 3, so ist { αv + βv 2 : α, β R } eine Ebene durch die Punkte (, ), v und v 2,... v v 2... es sei denn, dass für ein bestimmtes Paar (α, β) R 2 \ {(, )} gilt αv + βv 2 =. In diesem Fall wäre { αv + βv 2 : α, β R } = {αv : α R} bloß eine Gerade durch die Punkte (, ) und v (und v 2 ein Punkt irgendwo auf dieser Gerade), es sei denn, dass sogar v = v 2 = ist. In diesem Fall wäre { αv + βv 2 : α, β R } = {(, )} bloß ein isolierter Punkt. Definition 8. v,..., v m K n heißen linear abhängig, falls es α,..., α m K gibt, von denen mindestens eins von verschieden ist, und für die gilt α v + +α m v m =. Anderenfalls heißen v,..., v m linear unabhängig. Beispiel. Die Vektoren 2, 3 4 5,

43 sind linear abhängig, weil ( 2) = Achtung: Aus der paarweisen linearen Unabhängigkeit von v i und v j für alle i, j folgt im allgemeinen nicht, dass v,..., v m insgesamt linear unabhängig sind. Im vorliegenden Beispiel sind 2 und 5 linear unabhängig, und 2 und 8 sind linear unabhängig, und und 8 sind linear unabhängig, aber alle drei Vektoren miteinander sind abhängig. 9 Für Teilmengen A B K n gilt nur: wenn A linear abhängig ist, dann auch B, und wenn B linear unabhängig ist, dann auch A. Aber aus der linearen Unabhängigkeit von A folgt nichts über die lineare Unabhängigkeit von B, und aus der linearen Abhängigkeit von B folgt nichts über die lineare Abhängigkeit von A (vgl. Satz 38 in Abschnitt 4). Anschauung: Wenn v, v 2, v 3 R 3 linear abhängig sind, dann liegt der Punkt v 3 in der Ebene durch die Punkte (,, ), v und v 2. Satz 5. Seien v,..., v m K n und U := { α v + + α m v m : α,..., α m K } K n die Menge aller Linearkombinationen von v,..., v m. Dann ist (U, +) eine Untergruppe von (K n, +). Beweis. Zu zeigen: (a) U, (b) a, b U : a + b U, (c) a U : a U. zu (a): = v + + v m U. zu (b): Seien a, b U. Nach Definition von U gibt es dann α,..., α m K und β,..., β m K mit a = α v + + α m v m b = β v + + β m v m. Daraus folgt durch Addition der beiden Gleichungen a + b = (α + β ) v }{{} + + (α m + β m ) v }{{} m U. K K zu (c): Sei a U, etwa a = α v + + α m v m für gewisse α,..., α m K. Dann gilt auch a = (α v + + α m v m ) = ( α )v + + ( α m )v m U. 8 Matrizen 43

44 Definition 9. Seien n, m, k N. Eine Matrix ist ein Element von K n m := (K m ) n. Schreibweise: a, a,m A = ((a i,j )) n,m i=,j= =..... K n m. a n, a n,m Der Vektor a,j. a n,j die i-te Zeile von A. K n heißt die j-te Spalte von A, der Vektor (a i,,..., a i,m ) K m heißt Konvention: Bei einem Doppelindex (i, j) bezieht sich immer die erste Komponente auf die Zeile und die zweite auf die Spalte, in der der Matrixeintrag a i,j steht. Insbesondere hat eine (n m)-matrix stets n Zeilen und m Spalten. Für a, a,m A =..... a n, a n,m wird das Matrixprodukt K n m und B = c, c,k A B :=..... K n k c n, c n,k definiert durch c i,j := m l= a i,lb l,j (i =,..., n, j =,..., k). Beispiel. b, b,k..... b m, b m,k K m k. 2. ( ) ( ) ( ) = ( ) ( ) 3 = R ( ) + ( ) ( ) ( ) = = R Das Matrixprodukt ( ) ( ) ist nicht definiert. Die Formate passen nicht. In einem Matrixprodukt A B muss A genau so viele Spalten haben wie B Zeilen hat. 44

45 4. Vektoren (d. h. Elemente von K n ) lassen sich als spezielle Matrizen auffassen, je nach Bedarf als Elemente von K n (dann spricht man von Zeilenvektoren) oder von K n (dann spricht man von Spaltenvektoren). Insbesondere kann man Matrizen mit Vektoren multiplizieren, wenn die Formate passen. Zum Beispiel: ( ) = ( ) = ( ) (,, 2) = (, 3, 5) Für Vektoren in K n wollen wir uns nicht festlegen, ob sie nun Zeilen- oder Spaltenvektoren sein sollen. Es sind einfach Vektoren. Wenn es auf eine bestimmte Interpretation ankommt, wird immer aus dem Zusammenhang klar sein, welche gemeint ist. Insbesondere wollen wir folgende notationelle Konvention machen: Sind v,..., v m K n Vektoren, so bezeichnet (v, v 2,..., v m ) K n m die Matrix, deren Spalten die v,..., v m sind. (Dabei werden die v j also als Spaltenvektoren interpretiert.) Dagegen soll mit der Notation v. v m K m n die Matrix gemeint sein, deren Zeilen die v,..., v m sind. (Dabei werden die v i also als Zeilenvektoren interpretiert.) Eine Matrix A K n m beschreibt eine Funktion φ: K m K n, φ(v) := Av. Diese Funktion transformiert den Raum K m auf eine bestimmte Weise in (eine Teilmenge von) K n. Eine klassische Anwendung ist das Zeichnen von dreidimensionalen Objekten auf zweidimensionalem Papier. Hierbei ist m = 3, n = 2, und eine mögliche Matrix ist A = ( ) /2. /2 Ein Punkt (x, y, z) R 3 wird von A auf den Punkt (x 2 z, y 2 z) R2 abgebildet. Beachte, dass mehrere Punkte der Ebene dasselbe Urbild im dreidimensionalen Raum haben koennen. Zum Beispiel ist (,, ) (2, 2, 2), aber φ(,, ) = φ(2, 2, 2) = (, ). Ist A K n m und ist e i = (,...,,,,..., ) der i-te Einheitsvektor, also der Vektor, an dessen i-ter Komponente eine steht und dessen andere Komponenten alle sind, so ist A e j genau die j-te Spalte von A und e i A die i-te Zeile. Die Spalten von A zeigen also an, auf welche Punkte die Einheitsvektoren abgebildet werden. 45

46 A = A = /2 A = /2 Weitere Beispiele im Fall n = m = 2: A= dehnt die Ebene in vertikaler Richtung. 2 B = 2 dreht die Ebene um 45 Grad entgegen dem Uhrzeigersinn. C= bewirkt eine sogenannte Scherung der Ebene. A C B Satz 6. Fu r alle A Kn m, B Km k, C Kk ` gilt (A B) C = A (B C). 46

47 Beweis. Seien A = ((a i,j )) n,m i=,j=, B = ((b i,j)) m,k i=,j=, C = ((c i,j)) k,l i=,j=. Der (i, j)-te Eintrag von (A B) C lautet dann k ( m k m m k m ( k a i,v b v,u )c u,j = a i,v b v,u c u,j = a i,v b v,u c u,j = b v,u c u,j ), u= v= u= v= v= u= v= a i,v u= und letzteres ist gerade der (i, j)-te Eintrag von A (B C). Da alle Einträge von (A B) C und A (B C) übereinstimmen, folgt die Behauptung. Daraus folgt insbesondere, dass Matrixmultiplikation der Verkettung der entsprechenden Funktionen entspricht. Außerdem folgt, dass (K n n, ) ein Monoid ist, mit der sogenannten Einheitsmatrix. I n := als Neutralelement. Ist es auch eine Gruppe? Beispiel.. A = ( ) ( ) 2 2 ist invertierbar: für B = gilt 2 ( ) A B = B A = = I 2. ( ) ( ) b, b 2. A = ist nicht invertierbar, denn gäbe es eine Inverse B =,2, dann b 2, b 2,2 müsste gelten: ( ) ( ) ( ) ( ) b, b,2 b, + b =,2! =, b 2, b 2,2 b 2, + b 2,2 also b, + b,2 = = b 2, + b 2,2 = =. Die vierte Gleichung ist offensichtlich nicht zu erfüllen, egal wie wir die b i,j wählen. Definition 2. GL(n, K) := { A K n n : B K n n : AB = BA = I n } heißt die lineare Gruppe der Größe n über dem Körper K. Die Matrix B mit AB = BA = I n heißt Inverse von A. Notation: A = B. Wegen Satz 6 ist klar, dass GL(n, K) zusammen mit der Matrixmultiplikation eine Gruppe bildet. Diese Gruppe ist nicht kommutativ, z. B. gilt ( ) ( ) ( ) =, ( ) ( ) ( ) = In diesem Zusammenhang sei an die Rechenregel (AB) = B A erinnert. 47

48 Satz 7.. K n n bildet zusammen mit der Addition a, a,m b, b,m a n, a n,m b n, b n,m := a, +b, a,m +b,m..... a n, +b n, a n,m +b n,m und der Matrixmultiplikation einen (nicht-kommutativen!) Ring mit Eins. 2. Für die Skalarmultiplikation a, a,m : K K n m K n m, α..... a n, a n,m := αa, αa,m..... αa n, αa n,m und die Addition gelten die Gesetze α(a + B) = αa + αb, (α + β)a = αa + βa, (αβ)a = α(βa), A = A, und (αa)c = α(ac), jeweils für alle α, β K, A, B K n m, C K m k. Beweis. Übung. Definition 2. Die Transposition von Matrizen ist definiert durch : K n m K m n, a, a,m..... a n, a n,m a, a n, = a m, a n,m Beispiel = Satz 8.. Für alle A K n m und B K m k gilt (AB) = B A. 2. Für alle A GL(n, K) gilt (A ) = (A ). Beweis.. Es seien a i,j und b i,j die Einträge von A bzw. B in der i-ten Zeile und j-ten Spalte. Der (i, j)-te Eintrag von (AB) ist nach Definition der Transposition gleich dem (j, i)-ten Eintrag von AB, und dieser ist nach Definition der Matrixmultiplikation gleich m a j,l b l,i. l= 48

49 Der (i, j)-te Eintrag von B A ist Die Einträge sind also gleich. m l= b l,i a j,l = m a j,l b l,i. l= (l, j)-eintrag von A (i, l)-eintrag von B 2. Es gilt AA = I n. Mit Teil des Satzes folgt also (A ) A = I n. (AA ) = In = I }{{} n, =(A ) A Definition 22. Sei π S n eine Permutation. Dann heißt die Matrix A = ((a i,j )) n i,j= Kn n mit { falls π(i) = j a i,j = sonst die zu π gehörige Permutationsmatrix. Beispiel. Die zu π = S gehörige Permutationsmatrix lautet A =. Zum Beispiel steht in Zeile 2 eine Eins in der vierten Spalte, weil π(2) = 4 ist. Multiplikation einer Permutationsmatrix mit einem Vektor permutiert die Einträge des Vektors: a a + b + c + d b b c = a + b + c + d a + b + c + d = d c. d a + b + c + d a A ist genau dann eine Permutationsmatrix, wenn in jeder Zeile und in jeder Spalte genau eine Eins und sonst nur Nullen stehen. Satz 9. Es sei P π die Permutationsmatrix zu einer Permutation π S n. Dann gilt:. π, σ S n : P σπ = P π P σ, 2. π S n : P π = P π = P π. 3. Für jede Matrix A = ((a i,j )) n i,j= und jede Permutation π S n gilt ((a π(i),π(j) )) n i,j= = P π AP π. 49

50 Beweis.. Seien π, σ S n beliebig. Nach Definition ist Sei P π P σ = ((c i,j )) n i,j=. Dann gilt: { P π = ((a i,j )) n falls π(i) = j i,j= mit a i,j = sonst { P σ = ((b i,j )) n falls σ(i) = j i,j= mit b i,j = sonst n c i,j = a i,k b k,j }{{} k= { falls π(i) = k und σ(k) = j = sonst { falls σ(π(i)) = j = sonst { falls (σπ)(i) = j = sonst 2. Aus der Definition folgt unmittelbar P id = I n. Unter Verwendung von Teil erhält man daraus und damit P π = P π. I n = P id = P ππ = P π P π, Die Behauptung P π = P π folgt aus π(i) = j π (j) = i. 3. Wir verwenden die Notation { falls u = v δ u,v := sonst für u, v N. Dann ist P π = ((δ π(i),j )) n i,j= den Eintrag an Position (i, j) von P π APπ und nach Teil 2 P π ergibt sich deshalb = ((δ i,π(j) )) n i,j=. Für n δ π(i),k k= l= n a k,l δ l,π(j), } {{ } } {{ a k,π(j) } =a π(i),π(j) wie behauptet. Die Abbildung h: S n GL(n, K), π P π ist ein injektiver Gruppenhomomorphismus. 5

51 9 Gleichungssysteme Viele Probleme in der linearen Algebra lassen sich zurückführen auf ein Problem von folgendem Typ: Gegeben A K n m, finde alle x K m, so dass Ax = K n. Man nennt dieses Problem ein lineares Gleichungssystem und L = { x K m : Ax = } dessen Lösungsmenge. Jedes Element x L heißt Lösung des Gleichungssystems. Man sagt auch, L ist der Kern der Matrix A, Notation: ker A := L. Wie findet man Lösungen eines linearen Gleichungssystems? Was lässt sich über die Struktur der Lösungsmenge sagen? Schreibe für die bekannten Daten und a, a,m A = a n, a n,m x = x. x m für die unbekannten Daten. Dann lautet das Problem also, alle x,..., x m K zu finden mit a, x + + a,m x m = a 2, x + + a 2,m x m = a n, x + + a n,m x m =. Das System besteht aus n Gleichungen und m Variablen. Beispiel: 2x + 7x 2 = 3x 2x 2 =. Beobachtung: Die Lösungsmenge ändert sich nicht, wenn man Gleichungen mit einer von verschiedenen Konstanten multipliziert, Das c-fache einer Gleichung zu einer anderen Gleichung dazuaddiert, für ein beliebiges c K, Gleichungen vertauscht. All diese Operationen lassen sich durch eine Operation vom gleichen Typ wieder rückgängig machen. Idee: Verwende diese Operationen, um ein gegebenes Gleichungssystem systematisch in eine Form zu bringen, aus der sich die Lösungen leicht ablesen lassen. 5

52 Beispiel.. I 2x + 7x 2 = II 3x 2x 2 = II II 3 2 I II 2 25 II I I 7II I 2x + 7x 2 = II x 25 2 x 2 = I 2x + 7x 2 = II x + x 2 = I 2x + x 2 = II x + x 2 = I 2 I I x + x 2 = II x + x 2 = (x, x 2 ) = (, ) Also ist in diesem Fall L = { ( ) } die Lösungsmenge des Gleichungssystems. Handlichere Schreibweise für die gleiche Rechnung: ( ) ( ) 2 7 3/ ( ) ( ) ( ) 2. I 2x 3x 2 = II 4x + 6x 2 = II II+2I I 2x 3x 2 = II x + x 2 = 2x 3x 2 = In diesem Fall kann x 2 beliebig gewählt werden, z. B. x 2 = α Q, und für jede Wahl gibt es genau eine passende Wahl von x, nämlich x = 3 2α. Die Lösungsmenge hat also die Gestalt ( ) 3/2 L = { α : α Q }. 3. Ein Beispiel mit drei Gleichungen und drei Variablen: I x + 4x 2 x 3 = II x + 2x 2 + x 3 = III x x 2 + 2x 3 = 52

53 Wir verwenden gleich die handlichere Schreibweise: Die Lösungsmenge ist also offensichtlich L = { }. Definition 23.. Eine Matrix A heißt in Treppenform (TF) (engl. echelon form), falls gilt: (a) A = (,,,..., ) K m, oder (b) A =, oder (c) A =. B für eine Matrix B K(n ) (m ) in Treppenform, oder (d) A =. B für eine Matrix B K n (m ) in Treppenform. Dabei stehen die Symbole für beliebige (nicht notwendigerweise identische) Elemente von K. 2. Ist A in Treppenform, so heißen die Stellen (i, j) mit a i, = a i,2 = = a i,j = und a i,j = die Treppenstufen von A. 3. A heißt Treppennormalform (TNF) (engl. reduced echelon form), falls A in Treppenform ist und zusätzlich für alle ihre Treppenstufen (i, j) gilt a,j = a 2,j = = a i,j =. 53

54 Beispiel. Eine Matrix in Treppenform: Eine Matrix in Treppennormalform: Definition 24. Zwei Matrizen A, B K n m heißen äquivalent, geschrieben A B, falls es Matrizen E,..., E k K n n gibt, so dass A = E k E k E B, wobei jedes E i eine der folgenden drei möglichen Formen hat:. Alle Einträge jenseits der Diagonalen sind, die Einträge auf der Diagonale sind nicht, und mindestens n dieser Einträge sind. 2. Alle Einträge auf der Diagonalen sind, die Einträge jenseits der Diagonale sind bis auf höchstens eine Ausnahme. 3. Eine Permutationsmatrix für eine Permutation, die n 2 Punkte fest lässt und die beiden anderen miteinander vertauscht. Matrizen dieser Form heißen Elementarmatrizen Beachte: Die Multiplikation einer Matrix von links mit einer dieser Matrizen entspricht genau der Anwendung der vorher genannten Zeilenoperationen. Multiplikation dieser Matrizen von rechts bewirkt die entsprechende Operation auf den Spalten der Matrix. 54

55 Satz 2.. ist eine Äquivalenzrelation auf K n m. 2. Jede Äquivalenzklasse enthält genau eine Matrix in Treppenormalform. 3. Zwei Matrizen haben genau dann den gleichen Kern, wenn sie äquivalent sind. Beweis. (Skizze). Übung. 2. Dass es mindestens eine TNF gibt, ergibt sich aus dem im folgenden beschriebenen Gauß-Algorithmus, der eine solche Form berechnet. Für die Eindeutigkeit argumentiert man per Induktion über die Anzahl der Spalten der Matrix und verwendet die rekursive Struktur der Definition. 3. Man konstruiert eine bijektive Abbildung zwischen den Matrizen in Treppennormalform und den Mengen, die als Lösungsmenge eines Gleichungssystems auftreten können. Diese Argumente sind zugegebenermaßen nicht das, was wir normalerweise unter einem Beweis verstehen. Das ist unbefriedigend, zumal der Satz durchaus eine zentrale Bedeutung für den Aufbau der linearen Algebra hat und man tunlichts vermeiden sollte, Folgerungen aus Behauptungen zu ziehen, die nicht lückenlos bewiesen wurden. Selbstverständlich kann man den Beweis des Satzes auch nach allen Regeln der Kunst formal sauber aufschreiben. Nur wird er dann recht technisch und länglich, und man sieht nicht wirklich, was vor sich geht. Wir wollen deshalb ausnahmsweise darauf verzichten, und uns bloß anhand von Beispielen von der Richtigkeit der Aussagen überzeugen. Wer dem nicht traut, sollte keine Schwierigkeiten haben, in der einschlägigen Literatur einen ausformulierten formalen Beweis zu finden. Um die Lösungsmenge eines Gleichungssystems zu bestimmen, bringt man die Matrix zuerst in Treppennormalform. Daraus kann man dann eine explizite Darstellung der Lösungsmenge ablesen. Wir formulieren dieses Vorgehen als drei separate Algorithmen. Der erste bringt eine gegebene Matrix in Treppenform, der zweite eine gegebene Treppenform in Treppennormalform, und der dritte bestimmt aus einer gegebenen Treppennormalform eine Beschreibung des Kerns. Alle drei Algorithmen bezeichnet man als Gauß-Algorithmus oder Gauß-Elimination. Algorithmus. Eingabe: A = ((a i,j )) n,m i=,j= Kn m Ausgabe: Eine zu A äquivalente Treppenform. r := 2 für c =,..., m: 3 wenn p {r,..., n} : A[p, c], dann: 4 wähle so ein p 5 wenn p r, dann vertausche die Zeilen p und r 6 multipliziere die Zeile r mit /A[r, c] 7 für i = r +,..., n: 8 addiere das ( A[i, c])-fache der Zeile r zur Zeile i 9 r := r + 55

56 gib A als Ergebnis zurück Der Algorithmus ist so beschrieben, dass er die Einträge der Matrix A im Laufe der Rechnung verändert. Mit der Notation A[i, j] sind die Körperelemente gemeint, die zum aktuellen Zeitpunkt gerade an Position (i, j) in der Matrix stehen. Insbesondere gilt also A[r, c] in Schritt 6, denn durch die Vertauschung in Schritt 5 steht jetzt in Schritt r, was vorher in Zeile p stand, und diese Zeile war in Schritt 4 gerade so gewählt, dass A[p, c] ist. Algorithmus 2. Eingabe: A K n m in Treppenform Ausgabe: Eine zu A äquivalente Treppennormalform. für r = n,..., : 2 wenn j {,..., m} : A[r, j], dann: 3 wähle das kleinste solche j 4 für i =,..., r : 5 addiere das ( A[i, j])-fache von Zeile r zur Zeile i 6 gib A als Ergebnis zurück Beispiel. Wie kommt man von einer TNF zur entsprechenden Lösungsmenge? Betrachte Als Gleichungssystem geschrieben: I x + 3x 3 + 6x 5 = II x 2 + 2x 3 + 5x 5 = III x 4 + 4x 5 = IV x 6 = Wir stellen jede Gleichung nach der ersten vorkommenden Variablen frei und ergänzen zur Verdeutlichung der Situation triviale Gleichungen für die Variablen, die keine eigene Gleichung haben: x = 3x 3 6x 5 x 2 = 2x 3 5x 5 x 3 = x 3 x 4 = 4x 5 x 5 = x 5 x 6 = In dieser Darstellung sieht man, dass die Lösungsmenge von zwei frei wählbaren Parametern abhängt, die x 3 und x 5 entsprechen. Für jede (beliebige) Wahl von x 3 und x 5 sind die Werte aller anderen Variablen dann eindeutig bestimmt. Die Lösungsmenge lässt sich also schreiben 56

57 als 3 6 { 2 5 L = α + β 4 } : α, β Q. Trick: Die Vektoren, die in der Beschreibung der Lösungsmenge stehen, kann man wie folgt bekommen. Ergänze die TNF mit zusätzlichen Zeilen der Form (,...,,,,..., ), und zwar so, dass eine Matrix entsteht, die unterhalb der Diagonalen lauter Nullen hat, und auf deren Diagonalen nur + und stehen. Die Lösungsmenge L besteht dann genau aus den Linearkombinationen aller Spalten, bei denen auf der Diagonalen steht. Im vorliegenden Beispiel ist in der TNF eine solche Zeile zwischen der dritten und der vierten sowie zwischen der vorletzten und der letzten Zeile einzufügen. Man erhält dann neu 4 neu b b 2 Algorithmus 3. Eingabe: A K n m in TNF Ausgabe: Eine Menge {b,..., b k }, so dass L = { α b + + α k b k : α,..., α k K } die Lösungsmenge des Gleichungssystems Ax = ist. für r =,..., m: 2 wenn A[r, r] =, dann: 3 füge e r = (,...,,,..., ) K m als zusätzliche Zeile zwischen der rten und der (r )ten ein. 4 B = 5 für c =,..., m: 6 wenn A[c, c] =, dann: A[, c] 7 B = B {. } A[n, c] 8 gib B als Ergebnis zurück 57

58 Algorithmus 4. (Gauß-Algorithmus) Eingabe: A K n m Ausgabe: Eine Menge {b,..., b k }, so dass L = { α b + + α k b k : α,..., α k K } die Lösungsmenge des Gleichungssystems Ax = ist. Berechne eine Treppenform B von A mit Algorithmus 2 Berechne eine Treppennormalform C von B mit Algorithmus 2 3 Berechne {b,..., b k } aus C mit Algorithmus 3 4 gib {b,..., b k } als Ergebnis zurück. Beispiel. Es sei die Matrix A = gegeben. Die Einträge seien als Elemente von Z 3 zu verstehen, d.h. es gilt z.b. 2 2 = und + 2 =. Gesucht ist der Kern von A. Schritt : Berechnung einer Treppenform von A. Der Algorithmus arbeitet sich dazu von links nach rechts durch die Spalten der Matrix. In jedem Schritt ist nur die jeweils eingerahmte Teilmatrix relevant. Dieser eingerahmte Teil wird in jedem Schritt um eine Spalte kürzer Schritt 2: Transformation der Treppenform in eine Treppennormalform. Hier geht man von rechts nach links durch die Matrix. Von links nach rechts vorzugehen würde auch zum richtigen Ergebnis führen, ist aber meist mit etwas mehr Rechenaufwand verbunden. Im vorliegenden Beispiel ist es egal, weil es nur eine Treppenstufe gibt (nämlich die in der dritten Zeile), über der Einträge stehen, die von Null verschieden sind. Dieser Rechenschritt könnte theoretisch die Einträge in der eingerahmten Teilmatrix ändern. Im vorliegenden Fall ändern sich nur die Einträge oberhalb der dritten Treppenstufe, weil die Einträge rechts dieser Treppenstufe 58

59 zufällig Null sind Schritt 3: Bestimmung der Lösungsvektoren aus der Treppennormalform. Wir müssen die TNF durch hinzufügen geeigneter negativer Einheitsvektoren zu einer Matrix ergänzen, und zwar so, dass die Diagonale am Ende so viele Einträge hat wie die Matrix Spalten hat (also hier fünf), auf der Diagonalen keine Nullen mehr stehen, unterhalb der Diagonalen nur Nullen stehen. Nullzeilen kann man, wenn man will, streichen. Im vorliegenden Beispiel erhält man also, da wir in Z 3 rechnen und dort = 2 gilt, die Matrix Diese Matrix ist nicht äquivalent zur TNF, sondern nur eine Hilfsmatrix, die es erleichtert, die Lösungsvektoren abzulesen. Dieses sind nämlich genau jene Spalten, bei denen auf der Diagonale steht. Die Lösungsmenge lautet also 2 ker A = {α + β : α, β Z 3}. 2 2 Satz 2. Die Menge {b,..., b k }, die von Algorithmus 4 berechnet wird, ist linear unabhängig. Beweis. Wir dürfen annehmen, dass die b i in der Reihenfolge indiziert sind, in der der Algorithmus sie findet. Zu zeigen: für alle α,..., α k K gilt: α b + + α k b k = K m α = = α k =. K Seien also α,..., α k K so dass α b + + α k b k =. Angenommen, nicht alle α i sind Null. Dann gibt es ein i {,..., k}, so dass α i und α i+ = = α k =. Wenn j {,..., m} der maximale Index ist, so dass die j-te Komponente von b i von Null verschieden 59

60 ist, dann ist diese Komponente und die j-te Komponente der Vektoren b,..., b i ist Null. Das folgt aus Zeile 3 von Algorithmus 3. Die j-te Komponente der Linearkombination α b + + α k b k ist dann α + + α i α i + (b i+ ) j + + (b k ) j = α i. Damit kann die Linearkombination nicht der Nullvektor sein. Später werden wir sagen, {b,..., b k } ist eine Basis des Lösungsraums, und k = {b,..., b k } ist dessen Dimension. Algorithmus 4 berechnet also nicht die komplette Lösungsmenge, sondern nur eine endliche Menge von Vektoren, durch die sich alle (evtl. unendlich vielen) Lösungen darstellen lassen. Wozu dann der ganze Aufwand? Die Matrix A selbst ist schließlich auch eine endliche Menge von Vektoren, durch die sich alle Lösungen darstellen lassen: L = { x K m : Ax = }. Warum ist eine Basis besser? In der Tat kann man nicht pauschal sagen, dass eine Darstellung besser ist als die andere. Es kommt darauf an, was man machen will. Wenn man z. B. einen Vektor x K m gegeben hat und wissen will, ob er in L liegt, dann ist eine Basis zunächst nicht sehr hilfreich. Einfacher ist es, Ax auszurechnen und zu schauen, ob rauskommt. Umgekehrt, wenn man einen konkreten Lösungsvektor sucht, dann ist A nicht sehr hilfreich, aber eine Basis schon (jedes Basiselement ist ja insbesondere eine Lösung; wähle α i = und alle α j = für j i). Man sagt, L = { x K m : Ax = } ist eine implizite Darstellung von L, und man nennt L = {α b + + α k b k : α,..., α k K } = { (b,..., b k )x : x K k } eine explizite Darstellung. Algorithmus 4 ist also ein Algorithmus, der eine implizite Darstellung in eine explizite Darstellung umwandelt. Geht es auch umgekehrt? Klar! Algorithmus 5. Eingabe: {b,..., b k } K m Ausgabe: Eine Matrix A K n m, so dass ker A = { α b + + α k b k : α,..., α k K }. Sei B = b. K k m. b k 2 Berechne a,..., a n K m, so dass 3 gib A = { x K m : Bx = } = { α a + + α n a n : α,..., α n K }. a. a n K n m als Ergebnis zurück. Um die Korrektheit dieses Algorithmus zu zeigen, muss man beweisen { x K m : Bx = } = { α a + + α n a n : α,..., α n K } { x K m : Ax = } = { α b + + α k b k : α,..., α n K }. Nach Annahme gilt b. b k }{{} K k m (a,..., a n ) }{{} K m n k n = K 6 b. (a,..., a n ) b k }{{} = a. (b,..., b k ) a n }{{} = A = K n k,

61 also gilt Ab i = für alle i, und damit auch für jede Wahl von α,..., α k K. A (α b + + α k b k ) = α Ab + + α k Ab k = α + + α k = Diese Richtung ist nicht ganz so offensichtlich. Wir werden in Abschnitt 6 darauf zurückkommen. Lineare Unabhängigkeit und Rang Satz 22. Seien b,..., b m K n und sei T := b. ist. b m t. K m n eine Treppenform von B := t m K m n. Dann gilt: b,..., b m sind genau dann linear abhängig, wenn t m = (,..., ) Beweis. t m = (,..., ). Es gibt Elementarmatrizen E,..., E k, so dass T = E k E B. Wenn U = E k E ist und (u m,,..., u m,m ) der m-te Zeilenvektor von U, dann gilt also = t m = u m, b + + u m,m b m. Da die E i invertierbare Matrizen sind, ist auch U eine invertierbare Matrix. Als solche kann U keine Nullzeile enthalten, denn es muss ja U U = I m gelten, und wäre z.b. die m-te Zeile von U komplett Null, so wäre auch die m-te Zeile von I m komplett Null, was nicht der Fall ist. Es gilt also, dass (u m,,..., u m,m ) nicht der Nullvektor ist, und also b,..., b m linear abhängig sind. b,..., b m sind linear abhängig, etwa α b + + α m b m = für gewisse α,..., α m K, von denen nicht alle Null sind. Es gilt also b (α,..., α m ). b m }{{} = U t. t m 6 = (,..., )

62 für ein invertierbares U K m m. Mit (β,..., β m ) := (α,..., α m )U gilt deshalb β t + + β m t m = (,..., ). Da U invertierbar ist und nicht alle α i Null sind, sind auch nicht alle β i Null, denn wären alle β i Null, dann wären wegen (α,..., α m ) = (β,..., β m )U auch alle α i Null. Also sind t,..., t m linear abhängig. Sei i minimal, so dass β i. Wir können dann o.b.d.a. annehmen, dass β i = ist. Dann gilt t i = β i+ t i+ + + β m t m. Wir zeigen, dass t i = ist. Wegen der Treppenform folgt dann t i+ = = t m =. Wäre t i, dann wäre es wegen der Treppenform von der Form (,...,, k,,..., ) mit der an einem bestimmten Index k, und t i+,..., t m wären von der Form (,...,,,,..., ), k + mit einer am Index k. Für die k-te Komponente der Gleichung ( ) würde dann gelten Widerspruch. = β i+ + + β m =. Der Beweis zeigt übrigens auch, dass die Menge aller Zeilen einer Treppenform, die von verschieden sind, stets linear unabhängig ist. Wenn also b,..., b m K n linear abhängig sind, dann übersetzen sich die Linearkombinationen b,..., b m, die ergeben, in Linearkombinationen von der Form für beliebige α k+,..., α m K. t + + t k + α k+ + + α m = Man kann also sagen, dass eine Treppenform den linear unabhängigen und den linear abhängigen Anteil von b,..., b m voneinander trennt. Es ist deshalb von Interesse, wie viele Nullzeilen eine Treppenfrom enthält. Definition 25. Sei A K n m \ {}. Sei T = ( ) t. eine Treppenform von A und k {,..., n} maximal mit t k. Dann heißt Rang A := k der Rang (engl. rank) von A. Für die Nullmatrix definiert man Rang :=. Der vorherige Satz sagt also, dass die Zeilen von A K n m genau dann linear abhängig sind, wenn Rang A < n ist. Wenn T und T zwei verschiedene Treppenformen von A sind, so müssen doch beide den gleichen Rang haben. Die Definition hängt also nicht von der Wahl der Treppenform ab und ist deshalb zulässig. Allgemein gilt Rang A n. Übrigens gilt auch Rang A m. Es folgt also aus m < n direkt, dass die Zeilen von A linear abhängig sind. Beachte außerdem: Wenn E eine Elementarmatrix ist, dann gilt Rang A = Rang EA. t n 62

63 Beispiel.. Rang = 3, da und diese TF drei Stufen hat Rang = 2, da und diese TF zwei Stufen hat Rang =, da und diese TF eine Stufe hat Satz 23. Sei A K n m. Dann gilt:. Ist irgendeine Wahl von k Zeilen von A linear unabhängig, so ist Rang A k. 2. Ist jede Wahl von k Zeilen von A linear abhängig, so ist Rang A < k. Mit anderen Worten: Rang A = k genau dann, wenn k die maximale Anzahl von linear unabhängigen Zeilen von A ist. Beweis. Seien a,..., a n K m die Zeilenvektoren von A.. Wir zeigen: wenn Rang A < k, dann sind a,..., a k linear abhängig. Nehmen wir also an, es gilt Rang A < k. Dann hat jede Treppenform von A die Form t. T = t k.. Es gibt eine invertierbare Matrix U K m m mit A = UT. Damit lässt sich jedes a i als Linearkombination von t,..., t n darstellen, und damit auch als Linearkombination von t,..., t k, etwa a = c, t + + c,k t k a 2 = c 2, t + + c 2,k t k. a k = c k, t + + c k,k t k. Die Matrix c, c,k C =..... c k, c k,k 63

64 hat mehr Zeilen als Spalten, deshalb müssen wegen Rang C k nach Satz 22 ihre Zeilen linear abhängig sein, etwa α (c,,..., c,k ) + α 2 (c 2,,..., c 2,k ) + + α k (c k,,..., c k,k ) = für gewisse α,..., α k K, von denen nicht alle Null sind. Dann gilt auch = t k α i (c i,,..., c i,k ). i= } {{ } = = α a + + α k a k, t k d. h. {a,..., a k } ist linear abhängig. 2. Wir zeigen: wenn Rang A k ist, dann gibt es eine Wahl von k Zeilen von A, die linear unabhängig sind. Sei M = {a i,..., a il } eine Menge von Zeilen von A, die linear unabhängig ist und in dem Sinn maximal, dass M {a} linear abhängig ist für jede Zeile a von A, die nicht schon in M ist. Dann gilt a i. A a il, ( ). denn für jede Zeile a {a,..., a n }\M gibt es nach Wahl von M eine lineare Abhängigkeit α a + α i a i + + α il a il =, und in dieser muss α sein, weil sonst schon a i,..., a il linear abhängig wären. Wenn aber α ist, kann man O.B.d.A. annehmen, dass α = ist, dass es also eine Darstellung a = α i a i + + α il a il gibt. Daher lässt sich die Zeile a durch geeignete Zeilenoperationen mithilfe der Zeilen in M in eine Nullzeile überführen. Aus der Form ( ) folgt Rang A l. Zusammen mit der Annahme Rang A k folgt l k. Satz 24. Für alle A K n m gilt Rang A = Rang A. 64

65 Beweis. Wegen (A ) = A genügt es zu zeigen, dass Rang A Rang A. Ist Rang A = k, so ist A = UT für eine Matrix U, die das Produkt von Elementarmatrizen ist, und eine Treppenform T, bei der die ersten k Zeilen von verschieden sind, und die letzten n k Zeilen Null sind. Dann ist A = T U. Die Matrix T hat die Form..... } {{ }} {{ } k n k Für die Treppenformen dieser Matrix sind nur die ersten k Spalten relevant. Der Rang der Matrix T ist daher höchstens k. Nach Satz 23 sind deshalb je k + Zeilen von T linear abhängig. Sei T K n (k+) eine beliebige Wahl von k + Spalten von T, so dass T K (k+) n eine beliebige Wahl von k + Zeilen von T ist. Dann gibt es also (α,..., α k+ ) mit (α,..., α k+ ) T =. K n. Und dann gilt auch (α,..., α k+ ) T U =.. Damit ist gezeigt, dass jede Wahl von k + Zeilen von A = T U linear abhängig ist. Nach Satz 23 folgt Rang A < k +, d. h. Rang A k, wie behauptet. Wegen Satz 24 gilt Satz 23 auch für die Spalten von A. Für die Berechnung des Rangs einer Matrix bedeutet das, dass man sowohl Zeilen- als auch Spaltenoperationen anwenden darf, um A in eine Form zu bringen, aus der man den Rang ablesen kann. Spaltenoperationen sind ja Zeilenoperationen auf der Transponierten, und solche Operationen ändern den Rang nicht. Durch Zeilen- und Spaltenoperationen lässt sich jede Matrix A K n m mit Rang A = k auf die Form bringen } {{ }} {{ } k m k k n k 65

66 Beispiel : : Also ist Rang 3 = Man braucht sich aber gar nicht die Mühe zu machen, eine Matrix bis zu dieser Form zu bringen. Es genügt schon, durch Zeilen- und Spaltenoperationen alle Einträge unterhalb der Diagonale zu Null zu machen. Danach ist der Rang genau die Anzahl der Elemente auf der Diagonale, die von Null verschieden sind. Im vorliegenden Beispiel hätte man also schon bei der ersten Matrix in der zweiten Zeile aufhören können. Inhomogene Systeme Gegeben seien A K n m, b K n, und gesucht seien alle x K m mit Ax = b. Mit A = ((a i,j )) n,m i=,j=, b = (b,..., b n ) und x = (x,..., x m ) ist also folgendes System von Gleichungen zu lösen: a, x + + a,m x m = b.. a n, x + + a n,m x m = b n. Der Fall b = (,..., ) wurde schon in Abschnitt 9 behandelt. In diesem Fall spricht man von einem homogenen Gleichungssystem. Den Fall b bezeichnet man als inhomogenes Gleichungssystem. (engl. homogeneous/inhomogeneous) Wie sieht die Lösungsmenge eines inhomogenen Gleichungssystems aus, und wie bestimmt man sie? Beachte: x ist genau dann eine Lösung von Ax = b wenn für jedes x h mit Ax h = auch x + x h eine Lösung ist. Es genügt also, eine einzige Lösung x des Gleichungssystems Ax = b zu finden. Alle weiteren unterscheiden sich von dieser dann nur noch um Lösungen des homogenen Systems Ax =. 66

67 x = (x,..., x n ) K m ist genau dann eine Lösung von Ax = b, wenn x = (x,..., x n, ) K m+ eine Lösung von (A b) x = ist. Dabei ist (A b) K n (m+) die Matrix, die aus A entsteht, wenn man b als zusätzliche Spalte rechts anfügt. Idee: Berechne zunächst die Lösungsmenge des homogenen Systems (A b) x = und bestimme dann die Vektoren der Lösungsmenge, für die die (m + )-te Koordinate ist. Betrachten wir dazu eine Treppenform T = unterscheiden:. Die letzte von verschiedene Zeile hat mehr als einen Eintrag:.. T =. t. K n (m+) von (A b). Es gibt zwei Fälle zu t n In diesem Fall können wir die (m+)te Koordinate des Lösungsvektors (des homogenen Systems) frei wählen. Insbesondere ist eine mögliche Wahl. Die weiteren Koordinaten x,..., x m ergeben sich dann wie üblich. Im allgemeinen werden manche von ihnen durch Gleichungen bestimmt sein und andere frei wählbar. 2. Die letzte von verschiedene Zeile hat genau einen Eintrag:.. T =. Beispiel. In diesem Fall entspricht die letzte Zeile der Treppenform der Gleichung x m+ =, d. h. alle Lösungen (x,..., x m+ ) des homogenen Systems haben als letzte Koordinate. Insbesondere gibt es keine Lösung mit als letzter Koordinate. Das inhomogene System hat in diesem Fall also keine Lösung.. A = ( ) 2, b = 3 4 ( ) 5 6 ( 2 ) ( ) 4 Die Lösungsmenge lautet L = { }. 9/2 + ( ) : ( 2) ( ) /2 2 ( ) /2

68 2. A = ( ) 2, b = 2 4 ( ) 3 ( ) ( ) Die Lösungsmenge lautet L = A = 4 5 6, b = /3 2 /3 2 2/3 2 + : ( 3) Die Lösungsmenge lautet { /3 } L = 2/3 + α 2 : α R. Beachte: das homogene Gleichungssystem Ax = hat die Lösungsmenge { } L h = α 2 : α R. Die Ergebnisse der vorangegangenen Diskussion lassen sich wie folgt als Satz zusammenfassen: Satz 25. Sei A K n m, b K n und sei L = { x K m : Ax = b }. Dann gilt: L = oder es gibt ein x K m so dass L = { x + x h : x h ker A } K m. (Zur Erinnerung: ker A = { x K m : Ax = }.) Insbesondere gilt: wenn ker A = {} und n = m, dann ist L =. Wenn ker A {}, dann ist L = oder L >. Im Fall L > hat L mindestens so viele Elemente wie der Körper K. Bei der Berechnung der Lösungsmenge entfällt der größte Teil der Rechenarbeit auf A und nur ein vergleichsweise kleiner Teil auf b. Wenn man also mehrere inhomogene Gleichungssysteme mit dem selben A zu lösen hat, sollte man die Rechenschritte, die A betreffen, nicht mehrmals durchführen. Stattdessen bietet es sich an, alle Systeme gleichzeitig zu lösen. 68

69 2 3 Beispiel. A =, b = 2, b 2 = (A b b 2 ) = : ( 3) /3 3 2/3 2 4/3 /3 Daraus folgt: Die Lösungsmenge von Ax = b ist { 2/3 } und die Lösungsmenge von 4/3 3 Ax = b 2 ist { 2 }. Und was, wenn uns jetzt noch jemand nach der Lösung x von Ax = 3b 7b 2 fragt? Antwort: Wir können entweder noch einmal von vorne losrechnen. Oder wir kombinieren die Lösung einfach aus den schon bekannten Lösungen. Tatsächlich lautet die Lösung /3 3 2 x = 3 2/3 7 2 [= 2 ]. 4/ Begründung: Wenn Ax = b und Ax 2 = b 2, dann ist A(α x + α 2 x 2 ) = α Ax + α 2 Ax 2 = α b + α 2 b 2 für alle α, α 2 K. Das gleichzeitige Lösen mehrerer inhomogener Gleichungssysteme lässt sich auch auffassen als das Lösen von Matrixgleichungen. Gegeben: A K n m, B K n k, gesucht: alle X K m k mit AX = B. Um so eine Gleichung zu lösen, bringt man einfach die erweiterte Matrix (A B) K n (m+k) in Treppen(normal)form und liest daraus die Lösungsmenge L K m k ab. Der wichtigste Spezialfall ist, wenn A = K n n und B = I n K n n. Die Gleichung AX = I n ist genau dann lösbar, wenn A eine invertierbare Matrix ist. Die Lösung ist dann X = A. Beispiel. 69

70 3. A = Also ist A = A = : 9 2/ 3/ 3/ 6/ 2/ 9/ 3/ / / 7 Daraus folgt, dass A nicht invertierbar ist Satz 26. Sei A K n n. Dann sind folgende Aussagen äquivalent:. A ist invertierbar 2. ker A = {} 3. Rang A = n 4. Die Zeilen von A sind linear unabhängig 5. Die Spalten von A sind linear unabhängig 6. A lässt sich als endliches Produkt von Elementarmatrizen schreiben 7

71 Beweis. Die Äquivalenzen (3) (4) (5) folgen aus den Sätzen 23 und 24. () (2). Sei x K n so, dass Ax = ist. Dann ist x = A Ax = A =. (2) (5). Wären die Spalten von A = (a,..., a n ) K n n linear abhängig, dann gäbe es ein (α,..., α n ) K n \ {} mit also A α. α n α a + + α n a n =, =, also (α,..., α n ) ker A, also ker A {}. (3) (6). Wenn Rang A = n ist, ist die TNF von A die Einheitsmatrix I n. Es gibt also Elementarmatrizen E,..., E m K n n mit I n = E m E A. Da jede Elementarmatrix invertierbar ist und ihr Inverses wieder eine Elementarmatrix ist, ist A = E Em die gewünschte Darstellung. (6) (). Jede Elementarmatrix ist invertierbar und das Produkt invertierbarer Matrizen ist invertierbar. Das Verfahren zum Invertieren von Matrizen kann man allgemein auch dazu verwenden, zu gegebenem A K n m eine invertierbare Matrix U K n n zu finden, so dass UA in Treppen(normal)form ist: die Treppen(normal)form von (A I n ) ist (T U), wobei T die Treppen(normal)form von A ist und U die gesuchte Transformationsmatrix. Beispiel /3 2/ /3 / Für A = ist also U = eine Matrix, so dass die Treppennormalform von A ist. UA = 2 Noch allgemeiner: Wenn wir sowohl Zeilen- als auch Spaltenoperationen anwenden wollen, zum Beispiel um den Rang einer Matrix A zu bestimmen, dann können wir Matrizen U K n n und V K m m finden, so dass... UAV = D :=.... 7

72 Dazu betrachtet man die Matrix ( A ) In I m und wendet darauf nur Zeilen- und Spaltenoperationen ( ) D U. V an, die die oberen n Zeilen oder die linken m Spalten betreffen. Das Ergebnis ist eine Matrix Beispiel. A = ( 2 ) : ( 3) /3 / /3 / In der Tat gilt ( ) ( 2 3 4/3 / ) 2 2 = ( ). 72

73 2 Determinanten In diesem Abschnitt sind alle Matrizen quadratisch, d. h. wir betrachten hier nur Matrizen, die gleich viele Zeilen wie Spalten haben. Das Ziel ist, eine Funktion det: K n n K zu konstruieren, so dass der Wert det(a) K etwas darüber aussagt, ob A K n n einen nichtleeren Kern hat. Dazu ist etwas Vorbereitung nötig. Man erinnere sich, dass S n die Gruppe der bijektiven Funktionen {,..., n} {,..., n} ist, und dass ihre Elemente auch als Permutationen bezeichnet werden. Definition 26.. Eine Permutation π S n heißt Zyklus (engl. cycle), falls es paarweise verschiedene k,..., k m {,..., n} gibt, so dass π(k ) = k 2, π(k 2 ) = k 3,..., π(k m ) = k m, π(k m ) = k sowie π(k) = k für alle k {,..., n} \ {k,..., k m } gilt. Schreibweise: π = (k k 2... k m ). Man nennt m die Länge des Zyklus. 2. Zwei Permutationen π, π 2 heißen (zueinander) disjunkt, falls gilt k {,..., n} : π (k) = k π 2 (k) = k. 3. Ein Zyklus der Länge zwei heißt Transposition. 4. Ein k {,..., n} mit π(k) = k heißt Fixpunkt von π S n. Beispiel = ( 2 4 3) = (3 2 4) ist ein Zyklus. Beachte: Ein Zyklus lässt sich auf verschiedene Weise schreiben. 2 3 = ( 3) ist eine Transposition ist kein Zyklus, lässt sich aber als Produkt (Komposition) der beiden disjunkten Zyklen ( 3) und (2 4) schreiben. 73

74 Satz 27.. Sind π, π 2 S n disjunkt, so gilt π π 2 = π 2 π. (Zur Erinnerung: Im allgemeinen ist die Verknüpfung von Permutationen nicht kommutativ.) 2. Jedes π S n lässt sich als endliches Produkt von disjunkten und von id verschiedenen Zyklen schreiben. Diese Darstellung ist bis auf die Reihenfolge der Faktoren eindeutig. 3. Sind k,..., k m {,..., m} paarweise verschieden, so gilt (k k 2... k m ) = (k k 2 )(k 2 k 3 ) (k m k m ), (k k 2... k m ) = (k m k m... k ). 4. Sind τ,..., τ m S n Transpositionen mit τ τ m = id, so ist m gerade. 5. S n = n! := 2 (n ) n. Beweis.. Sei k {,..., n} beliebig. Falls π (k) = π 2 (k) = k ist, gilt (π π 2 )(k) = (π 2 π )(k) = k. Wenn π (k) k ist, dann ist π 2 (k) = k, weil π, π 2 disjunkt sind. Da π bijektiv ist, gilt dann auch π (π 2 (k)) = π (k). Aus π (k) k und der Bijektivität von π folgt auch, dass π (π (k)) π (k). Aus der Disjunktheit von π, π 2 folgt deshalb π 2 (π (k)) = π (k). Damit ist gezeigt π (π 2 (k)) = π 2 (π (k)). Der Fall π 2 (k) k geht genauso. Insgesamt ist also gezeigt, dass für alle k {,..., n} gilt (π π 2 )(k) = (π 2 π )(k), wie behauptet. 2. Die Existenz folgt aus folgendem konstruktiven Argument. Setze B := {,..., n}. 2 Solange B 3 Wähle ein beliebiges k B. 4 Falls π(k) = k, dann 5 Setze B := B \ {k} 6 ansonsten 7 Bestimme m {,..., n} mit π m (k) = k und π i (k) k für i =,..., m. So ein m existiert. 8 Notiere den Zyklus (k π(k)... π m (k)). 9 Setze B := B \ {k,..., π m (k)}. Da in jeder Iteration die Menge B um wenigstens ein Element kleiner wird, wird dieses Verfahren nach endlich vielen Schritten fertig. Offensichtlich ist π das Produkt aller notierten Zyklen und diese sind id und paarweise zueinander disjunkt. 74

75 Eindeutigkeit: Hätte π S n zwei verschiedene Darstellungen als Produkt disjunkter Zyklen, etwa π = σ σ m = σ σ m, dann müsste σ i { σ,..., σ m } für mindestens ein i {,..., m} gelten. (O.B.d.A. können wir annehmen m m.) Wähle so ein σ i. Da σ i id ist, gibt es ein k {,..., n} mit σ i (k) k. Wegen Disjunktheit ist dann auch π(k) = σ i (k) k. Damit muss es ein ι {,..., m} geben mit π(k) = σ ι (k) k. Induktiv zeigt man l N : π l (k) = σi l(k) = σl ι (k). Aber dann ist σ i = σ ι, im Widerspruch zur Wahl von σ i. 3. Übung. 4. Betrachte die Funktion F : S n N, π { (i, j) {,..., n} 2 : i < j π(i) > π(j) }. (Beispiel: F ( ) = {(, 3), (2, 3), (2, 5), (4, 5)} = 4.) Sei π S n beliebig und τ = (i j) mit i < j eine Transposition.. Fall: π(i) > π(j). Dann gilt (πτ)(i) < (πτ)(j) und (πτ)(k) = π(k) für alle k {,..., n} \ {i, j}. Es gilt also F (πτ) = F (π). 2. Fall: π(i) < π(j). Dann ist (πτ)(i) > (πτ)(j) und (πτ)(k) = π(k) für alle k {,..., n} \ {i, j}. Es gilt also F (πτ) = F (π) Fall: π(i) = π(j). Dieser Fall kann nicht auftreten, weil i < j, also i j und π bijektiv, also injektiv. Damit ist gezeigt, dass für jede Permutation π S n, die ein Produkt einer ungeraden Anzahl von Transpositionen ist, auch F (π) ungerade ist. Da F (id) = gerade ist, folgt die Behauptung. 5. Induktion nach n. Für n = gilt S = {id}, also S =. Sei nun n N so, dass S n = n! gilt. Wir zeigen S n+ = (n + )!. Zunächst ist klar, dass die Permutationen von {,..., n} genauso zahlreich sind wie die Permutationen von {,..., n+}, die n+ als Fixpunkt haben. Nach Induktionsannahme gibt es n! viele Permutationen von {,..., n}. Für jede solche Permutation π und jede Wahl von k {,..., n + } ist (n + k) π eine Permutation von {,..., n + }. Da all diese Permutationen paarweise verschieden sind, folgt S n+ (n + ) S n. Umgekehrt gilt: ist σ S n+ beliebig, so ist π := (n + σ(n + )) σ eine Permutation, die n + als Fixpunkt hat. Da Transpositionen selbstinvers sind, gilt auch σ = (n + π(n + )) π, so dass sich also jedes Element von S n+ als Produkt einer Permutation mit Fixpunkt n + und einer Transposition (n + k) schreiben lässt. Daher werden mit der vorher beschriebenen Konstruktion alle Elemente von S n+ erreicht und es folgt S n+ = (n + ) S n. Wegen Teil 2 und 3 lässt sich jedes π S n als Produkt von (nicht notwendigerweise disjunkten) Transpositionen schreiben. Diese Darstellung ist zwar nicht eindeutig, aber wegen Teil 4 gilt: Entweder haben alle Darstellungen von π S n eine gerade Anzahl von Transpositionen, oder alle Darstellungen haben eine ungerade Anzahl. Deshalb ist folgende Definition erlaubt: 75

76 Definition 27. Sei π S n. Dann heißt { falls π Produkt einer geraden Anzahl von Transpositionen ist sgn(π) := falls π Produkt einer ungeraden Anzahl von Transpositionen ist das Vorzeichen (engl. sign) von π. Ist F wie im Beweis von Satz 27, so gilt sgn(π) = ( ) F (π). Außerdem ist sgn: S n {, } ein Gruppenhomomorphismus, d. h. es gilt sgn(πσ) = sgn(π) sgn(σ). Beispiel. sgn( 2 3 ) =, 3 2 sgn( ) = Definition 28. Sei A = ((a i,j )) n i,j= Kn n. Dann heißt det(a) := n sgn(π) a i,π(i) K π S n i= die Determinante von A. Statt det(a) schreibt man auch a, a,n a n, a n,n Beispiel. ( ) a, a. n = 2, A =,2. a 2, a 2,2 { S 2 = 2, 2 } = { id, ( 2)}. 2 2 det A = a, a 2,2 + ( )a,2 a 2, = a, a 2,2 a,2 a 2,. sgn = sgn = a, a,2 a,3 2. n = 3, A = a 2, a 2,2 a 2,3. a 3, a 3,2 a 3,3 + S 3 = { id, ( 2), ( 3), (2 3), ( 3 2), ( 2 3) }

77 det(a) = a, a 2,2 a 3,3 + a,3 a 2, a 3,2 + a,2 a 2,3 a 3, a,2 a 2, a 3,3 a,3 a 2,2 a 3, a, a 2,3 a 3,2 Für die Handrechnung ist es nützlich, die 3 5-Matrix zu betrachten, die man aus A erhält, wenn man die erste Spalte in die vierte und die zweite in die fünfte kopiert. Dann lässt sich die Determinante berechnen, indem man für die drei absteigenden und die drei aufsteigenden Diagonalen jeweils das Produkt der Elemente berechnet, bei den aufsteigenden Diagonalen das Vorzeichen ändert, und die Ergebnisse aufaddiert Ab n = 4 wird die Berechnung von det(a) mit der Definition unangenehm. (Beachte: S 4 = 24, S 5 = 2.) Wir werden aber in Kürze sehen, dass die Berechnung von det(a) mit dem gleichen Aufwand möglich ist wie die Lösung eines Gleichungssystems. Satz 28. Für alle A K n n gilt det(a) = det(a ). Beweis. Zunächst gilt n a i,π(i) = i= n i= a σ(i),π(σ(i)) für jedes beliebige σ S n, weil (K \ {}, ) kommutativ ist (σ vertauscht bloß die Reihenfolge der Faktoren im Produkt). Für σ = π folgt daraus insbesondere n a i,π(i) = i= n i= a π (i),i. Zweitens gilt sgn(π) = sgn(π ) wegen der Teile 3 und 4 von Satz 27. Drittens gilt { π : π S n } = { π : π S n }, weil S n eine Gruppe ist. Deshalb gilt π S n f(π) = π S n f(π ) für jede Funktion f : S n K (es ändert sich nur die Reihenfolge der Summanden, aber nicht der Wert der Summe). 77

78 Aus allem zusammen folgt det(a) = n sgn(π) a i,π(i) π S n i= = n sgn(π ) a π (i),i π S n i= = n sgn(π) a π(i),i = det(a ). π S n i= Satz 29. Sei A K n n.. Entsteht B K n n aus A durch Multiplikation einer Zeile mit λ K, so gilt det(b) = λ det(a). 2. Entsteht B K n n aus A durch Vertauschen zweier Zeilen, so gilt det(b) = det(a). 3. Entsteht B K n n aus A dadurch, dass man das λ-fache einer Zeile von A zu einer anderen Zeile dazuaddiert, so gilt det(b) = det(a). Beweis. Schreibe jeweils A = ((a i,j )) n i,j=, B = ((b i,j)) n i,j=.. det(b) = n sgn(π) b i,π(i) = λ det(a). π S n i= }{{} = λ n i= a i,π(i) 2. Sei τ S n die entsprechende Transposition. gilt: det(b) = n sgn(π) a τ(i),π(i) π S n i= = n sgn(π) a i,(πτ)(i) π S n i= = sgn(τ) n sgn(πτ) π S n i= = n sgn(σ) a i,σ(i) σ S n i= = det(a). a i,(πτ)(i) (weil τ 2 = id) 3. Wegen Teil 2 können wir o.b.d.a. annehmen, dass das λ-fache der zweiten Zeile zur ersten addiert wird, also b,j = a,j + λa 2,j 78

79 Dann gilt: b i,j = a i,j (i > ). det(b) = n sgn(π) b i,π(i) π S n i= }{{} = (a,π() + λa 2,π() ) n i=2 a i,π(i) = det(a) + λ n sgn(π)a 2,π() a i,π(i). π S n i=2 }{{} a 2, a 2,n a 2, a 2,n = =:.. a n, a n,n Wir sind fertig, wenn wir zeigen können, dass = ist. Dazu nutzen wir aus, dass die Determinante einer Matrix mit zwei identischen Zeilen ist. Vertauscht man diese beiden Zeilen, so bleibt gleich, und aus Teil 2 folgt deshalb =, also 2 =. Daraus folgt =, jedoch nur, wenn K ein Körper ist, in dem 2 gilt! Das dürfen wir nicht ohne weiteres annehmen. Es geht auch ohne diese Annahme: Durch σ τ σ = τ σ = τ ( 2) wird auf S n eine Äquivalenzrelation erklärt. Jede Äquivalenzklasse hat genau zwei Elemente, und für beide Elemente π einer Äquivalenzklasse hat a 2,π() a,π(2) n i=3 a i,π(i) denselben Wert und sgn(π) unterschiedliches Vorzeichen. Daher gilt = [π] S n/ ( + ( )) a }{{} 2,π() a 2,π(2) = n i=3 a i,π(i) =. Wegen Satz 28 gilt Satz 29 auch für Spaltenoperationen statt Zeilenoperationen. Für die Identitätsmatrix I n folgt leicht aus der Definition, dass det(i n ) =. Mit Satz 29 folgt daraus für die Determinate von Elementarmatrizen: ( ) det λ = λ, ( ) ( ) det =, det =. Damit lassen sich Determinanten durch Zeilen- und Spaltenoperationen ausrechnen, indem man sie auf eine Form bringt, aus der man den Wert direkt ablesen kann. Insbesondere kann man den Wert einer Determinante direkt ablesen bei Matrizen, bei denen auf einer Seite der Diagonalen lauter Nullen stehen: λ. λ = λ λ n... λ n 79

80 Beispiel /4 = 3 = : = = 2. Satz 3. (Ergänzung zum Satz 26) A K n n ist genau dann invertierbar, wenn det(a) gilt. Beweis. Ist A invertierbar, so lässt sich A durch Zeilenumformungen auf die Treppennormalform I n bringen. Nach Satz 29 ändert sich bei jeder Zeilenumformung der Wert der Determinante höchstes durch Multiplikation mit einem λ K \ {}. Daraus folgt det(a). Ist A nicht invertierbar, so gilt Rang A < n und jede Treppenform T von A enthält eine Nullzeile. Für solche Treppenformen muss gelten det(t ) =. Da sich A durch Zeilenumformungen in T überführen lässt und jede Zeilenumformung den Wert der Determinaten höchstes mit einer Konstanten multipliziert, folgt det(a) =. Satz 3. Für alle A, B K n n gilt: det(ab) = det(a) det(b). Beweis. Falls Rang A < n ist, ist auch Rang AB < n, und es gilt sowohl det(ab) = als auch det(a) det(b) =. Falls Rang A = n ist, ist A nach Satz 26 ein Produkt endlich vieler Elementarmatrizen, etwa A = E E m. Nach Satz 29 bewirkt die Multiplikation einer Matrix mit einer Elementarmatrix E die Multiplikation ihrer Determinante mit det(e). Also gilt det(ab) = det(e ) det(e m ) det(b). }{{} = det(e E m I }{{ n ) } = A Aus Satz 3 und det(i n ) = folgt direkt det(a ) = det(a) für invertierbare Matrizen A Kn n. Darüber hinaus folgt, dass ein Gruppenhomomorphismus ist. Sein Kern det: GL(n, K) (K \ {}, ) ker det := { A GL(n, K) : det(a) = } heißt die spezielle lineare Gruppe und wird SL(n, K) geschrieben. (Beachte: der Kern eines Gruppenhomomorphismus ist nach Teil 2 von Satz 2 eine Gruppe.) Determinanten sind nützlich, um Vektoren auf lineare Unabhängigkeit zu untersuchen. Vor allem dann, wenn es nicht um konkrete Vektoren geht, so dass das Gauß-Verfahren sich nicht ohne weiteres anwenden lässt. 8

81 Beispiel.. Seien φ,..., φ n K paarweise verschieden und v,..., v n K n definiert durch v i = (, φ i, φ 2 i,..., φ n i ) K n 4-3 für i =,..., n. Dann ist {v,..., v n } linear unabhängig. Zum Beweis zeigt man, dass φ φ n φ 2 φ n 2 =.. φ n φ n n n i (φ i φ j ) }{{} i=2 j= } {{ } (Vandermonde Determinante) Für welche Werte von α R sind die Vektoren α, 2 α 4, 2α linear abhängig? Um das zu beantworten, berechnen wir die Determinante α α 2 4 2α = 2α3 + 2α 2 + 2α 2 = 2(α ) 2 (α + ). Die gesuchten Werte für α sind genau jene, für die die Determinante Null wird. Das ist offensichtlich genau dann der Fall, wenn α = oder α = ist. Satz 32. Sind v, w, v 2,..., v n K n, so gilt det ( v, v 2,, v n ) + det ( w, v2,, v n ) = det ( v + w, v2,, v n ). Beweis. Übung. Satz 33. (Laplace-Entwicklung) Sei A = ((a i,j )) n i,j= Kn n. Es sei A (i,j) K (n ) (n ) die Matrix, die aus A entsteht, wenn man die i-te Zeile und die j-te Spalte löscht. Dann gilt: det(a) = a, det(a (,) ) a,2 det(a (,2) ) + a,3 det(a (,3) ) ± + ( ) n a,n det(a (,n) ). 8

82 Beweis. Wegen Satz 29 und Satz 32 gilt zunächst a 2, a 2,n det(a) = a,.. a n, a n,n a 2, a 2,n + a,2.. a n, a n,n + a 2, a 2,n + a,n... a n, a n,n Daher, und wegen Teil 2 von Satz 29, genügt es, die Behauptung für den Fall zu zeigen. Nach Definition gilt für diesen Fall a 2, a 2,n A =.. a n, a n,n det(a) = n sgn(π) a i,π(i) π S n i= }{{} =, außer wenn π() = n = sgn(π)a, π S n:π()= a 2,2 a 2,n =.., a n,2 a n,n i=2 a i,π(i) denn die Permutationen von {,..., n}, die fest lassen, sind offenbar genau die Permutationen von {2,..., n}. Beispiel =

83 Sprechweise: Die Determinante wird nach der ersten Zeile entwickelt. Wegen der Sätze 28 und 29 gilt Satz 33 natürlich analog für andere Zeilen oder Spalten, zum Beispiel können wir auch nach der zweiten Spalte entwickeln: = Zweckmäßig ist es, für die Entwicklung eine Zeile oder Spalte auszuwählen, in der viele Nullen stehen. Man beachte bei der Entwicklung das Vorzeichenmuster für die Koeffizienten: Satz 34. (Cramersche Regel) Sei A K n n invertierbar, b K n und x K n so, dass Ax = b gilt. Dann ist ( det A () det ) A(n) x =,...,, det A det A wobei A (i) die Matrix ist, die aus A entsteht, wenn man die i-te Spalte durch b ersetzt. Beweis. Schreibe A = (a,..., a n ) mit a,..., a n K n und x = (x,..., x n ) mit x,..., x n K. Dann gilt für jedes i =,..., n. x i det(a) = det(a,..., a i, x i a i, a i+,..., a n ) n = det(a,..., a i, x j a j, a i+,..., a n ) = det A (i) j= } {{ } =b 83

84 Teil III Vektorräume und Lineare Abbildungen 84

85 3 Vektorräume Definition 29. Sei (V, +) eine abelsche Gruppe und : K V V so, dass. (α + β) v = α v + β v 2. (αβ) v = α (β v) 3. α (v + w) = α v + α w 4. v = v für alle α, β K und alle v, w V. Dann heißt (V, +, ) ein Vektorraum (engl. vector space) über K, oder einfach: ein K-Vektorraum. Die Elemente von V heißen Vektoren (im weiteren Sinn; vgl. Def. 7). Das Neutralelement von V heißt Nullvektor und wird mit dem Symbol bezeichnet. Die Operation heißt Skalarmultiplikation. Statt α v schreibt man auch αv. Beispiel.. K ist ein Vektorraum über sich selbst. 2. K n ist ein Vektorraum über K. 3. K n m ist ein Vektorraum über K. 4. Seien v,..., v k K n und V = { α v + + α k v k : α,..., α k K } K n die Menge aller Linearkombinationen von v,..., v k. Dann ist V ein Vektorraum. (Beachte: v, w V, α, β K αv + βw V.) Man sagt, V wird von v,..., v k aufgespannt oder erzeugt. Insbesondere lassen sich jeder Matrix A K n m in natürlicher Weise vier Vektorräume zuordnen: der Spaltenraum im A (engl. column space) das ist die Teilmenge von K n, die von den Spaltenvektoren von A aufgespannt wird der Zeilenraum coim A (engl. row space) das ist die Teilmenge von K m, die von den Zeilenvektoren von A aufgespannt wird der Kern ker A das ist die Menge aller x K m mit Ax = der Ko-Kern coker A das ist die Menge aller x K n mit xa =. Dass Spaltenraum und Zeilenraum Vektorräume sind, ist klar. Dass der Kern ein Vektorraum ist, ergibt sich aus den Ergebnissen des Abschnitts über Gleichungssysteme. Dass auch der Ko-Kern ein Vektorraum ist, folgt dann unmittelbar aus coker A = ker A. 5. Q( 2) ist ein Vektorraum über Q (vgl. Bsp. 3 nach Def. 6). 6. C ist ein Vektorraum über R (vgl. Bsp. 4 nach Def. 6). 85

86 7. R ist ein Vektorraum über Q, und auch über Q( 2). 8. K[X] ist ein Vektorraum über K. Ebenso die Obermenge K[[X]] und die Untermenge K[X] 3 := { α + α X + α 2 X 2 + α 3 X 3 : α,..., α 3 K } K[X] aller Polynome vom Grad höchstens drei. 9. Die Menge K N aller Folgen in K bildet einen Vektorraum über K, wenn man definiert (a, a,... ) + (b, b,... ) := (a + b, a + b,... ) α(a, a,... ) := (αa, αa,... ). Allgemeiner: Die Menge K A aller Funktionen f : A K bildet in natürlicher Weise einen Vektorraum über K.. Im Fall K = R bildet die Menge aller konvergenten Folgen einen Vektorraum, denn es gilt ja: sind (a n ) n=, (b n) n= konvergent, so ist auch (αa n + βb n ) n= konvergent, für jede Wahl von Konstanten α, β R. Auch die Menge N R N aller Nullfolgen bildet einen Vektorraum über R, denn mit lim n a n = lim n b n = gilt auch lim n (αa n + βb n ) = für jede Wahl von Konstanten α, β R.. Die Menge C(R, R) aller stetigen Funktionen f : R R ist ein Vektorraum über R, denn wenn f, g stetig sind, so ist auch αf + βg stetig, für jede Wahl von Konstanten α, β R. Ebenso die Menge C (R, R) aller differenzierbaren Funktionen f : R R, deren Ableitung f stetig ist, sowie die Menge C (R, R) aller beliebig oft differenzierbaren Funktionen. 2. Seien a, b, c: [, ] R stetige Funktionen und sei V die Menge aller Funktionen f : [, ] R, die mindestens zwei mal differenzierbar sind und für die gilt a(x)f(x) + b(x)f (x) + c(x)f (x) = für alle x [, ]. Eine solche Gleichung nennt man eine (lineare) Differentialgleichung (zweiter Ordnung), und die Funktionen f heißen Lösungen (engl. solution) der Differentialgleichung. Die Menge V C 2 ([, ], R) bildet einen Vektorraum über R, denn wenn f, g Lösungen sind und α, β R Konstanten, dann folgt aus a f + b f + c f = a g + b g + c g = α β durch Addition, dass a (αf + βg) + b (αf + βg) + c (αf + βg) =, also αf + βg V. 86

87 3. Seien a, b, c: Z K Funktionen und sei V die Menge aller Funktionen f : Z K, für die gilt a(n)f(n) + b(n)f(n + ) + c(n)f(n + 2) = für alle n Z. Eine solche Gleichung heißt (lineare) Rekurrenz (zweiter Ordnung), und die Funktionen f heißen Lösungen der Rekurrenz. Die Menge V K Z bildet einen Vektorraum über K, denn wenn f, g Lösungen sind und α, β K Konstanten, dann folgt aus a(n)f(n) + b(n)f(n + ) + c(n)f(n + 2) = a(n)g(n) + b(n)g(n + ) + c(n)g(n + 2) = α β durch Addition, dass auch die Funktion h: Z K, h(n) := αf(n)+βg(n) die Rekurrenz erfüllt. Sie werden im Verlauf Ihres Studiums noch viele weitere Vektorräume kennenlernen. Es lohnt sich deshalb, im folgenden beim Begriff Vektor nicht nur an Pfeile zu denken, mit denen eine bestimmte geometrische Anschauung verbunden ist, sondern eine allgemeinere Vorstellung des Begriffs zu entwickeln, die die Beispiele oben miteinschließt. Ein Vektor ist ab jetzt einfach ein Element eines Vektorraums, und ein Vektorraum ist alles, was die Bedingungen aus Definition 29 erfüllt, egal ob man sich darunter räumlich etwas vorstellen kann oder nicht. Satz 35. Sei V ein Vektorraum über K. Dann gilt:. v V : v = 2. v V : ( ) v = v 3. α K : α = 4. α K v V : αv = α = v = Beweis. Übung Definition 3. Sei V ein K-Vektorraum. Eine Teilmenge U V heißt Untervektorraum (oder einfach: Unterraum, engl: subspace) von V, falls gilt: u, v U α, β K : αu + βv U. Beispiel.. Sind u,..., u k K n, so ist die Menge U aller Linearkombinationen von u,..., u k ein Unterraum von K n. Man sagt dann, U ist die lineare Hülle (engl. span) von u,..., u k in K n. Schreibweise: V = u,..., u k oder V = span(u,..., u k ). Allgemeiner kann man statt K n irgendeinen Vektorraum V betrachten: für jede Wahl von u,..., u k V ist die Menge u,..., u k aller Linearkombinationen von u,..., u k ein Unterraum von V. 2. Q( 2) ist als Q-Vektorraum ein Unterraum von R. 87

88 3. K[X] 3 ist ein Unterraum von K[X], und K[X] ist ein Unterraum von K[[X]]. 4. Die Nullfolgen in R bilden einen Unterraum des Raums der konvergenten Folgen, und diese bilden einen Unterraum des Raums aller Folgen in R. 5. Die differenzierbaren Funktionen bilden einen Unterraum des Raums aller stetigen Funktionen, und diese einen Unterraum des Raums aller reellen Funktionen. 6. Die Menge aller Lösungen f : [, ] R der linearen Differentialgleichung a(x)f(x) + b(x)f (x) + c(x)f (x) = bildet einen Unterraum des Vektorraums C 2 ([, ], R) aller zweimal stetig differenzierbaren Funktionen. Satz 36. Sei V ein K-Vektorraum und U V ein Unterraum von V. Dann ist U auch ein K-Vektorraum. Beweis. Es ist zu zeigen, dass (U, +) eine abelsche Gruppe ist und dass die Skalarmultiplikation die Gesetze aus Definition 29 erfüllt. Dass die Gesetze an sich erfüllt sind, folgt schon daraus, dass sie für V erfüllt sind und U V ist. Es könnte höchstens sein, dass U nicht unter allen Operationen abgeschlossen ist. Dass das nicht so ist, garantiert die Bedingung aus Definition 3, z. B. mit α = β = gilt u, v U : u + v U und mit α =, β = gilt u U : u U. Damit ist (U, +) eine Untergruppe von (V, +), und also eine Gruppe. Ähnlich argumentiert man für die Skalarmultiplikation. Satz 37. Sei V ein K-Vektorraum und U, U 2 V seien Unterräume von V. Dann gilt:. Der Schnitt U U 2 ist ein Unterraum von V. 2. U + U 2 := { u + u 2 : u U, u 2 U 2 } ist ein Unterraum von V. Beweis.. Zu zeigen: u, v U U 2 α, β K : αu + βv U U 2. Seien u, v U U 2 und α, β K beliebig. Dann gilt u, v U, und weil U Unterraum ist, folgt αu + βv U. Ebenso gilt αu + βv U 2, weil u, v U 2 und U 2 Unterraum ist. Also ist αu + βv U U 2, was zu zeigen war. 2. Zu zeigen: u, v U + U 2 α, β K : αu + βv U + U 2. Seien u, v U + U 2 und α, β K beliebig. Dann gibt es u, v U und u 2, v 2 U 2 mit u = u + u 2 und v = v + v 2. Da U und U 2 Unterräume sind, gilt αu + βv U und αu 2 + βv 2 U 2, und folglich (αu + βv ) + (αu 2 + βv 2 ) U }{{} + U 2. =α(u +u 2 )+β(v +v 2 ) 88

89 Beispiel. Sind v,..., v k K n und schreibt man Kv i := { αv i : α K } (i =,..., k), so ist Kv + + Kv k = v,..., v k der Unterraum aller Linearkombinationen von v,..., v k. Die Vereinigung U U 2 zweier Unterräume ist genau dann wieder ein Unterraum, wenn U U 2 oder U 2 U ist. Allgemein gilt: U + U 2 ist der kleinste Vektorraum, der U U 2 enthält. 4 Basis und Dimension Definition 3. Sei V ein K-Vektorraum und B V.. B heißt linear abhängig, falls es für eine endliche Wahl paarweise verschiedener Vektoren v,..., v k B Körperelemente α,..., α k K gibt, von denen mindestens eines nicht Null ist, so dass gilt α v + + α k v k =. Anderenfalls heißt B linear unabhängig. 2. B heißt Erzeugendensystem (engl. generating set) von V, falls gilt: für alle v V existieren v,..., v k B und α,..., α k K, so dass v = α v + + α k v k. Schreibweise in diesem Fall: V = B oder V = span(b). Sprechweise: Die Elemente von B spannen V auf oder erzeugen V. 3. Ein linear unabhängiges Erzeugendensystem von V heißt Basis von V. Beispiel. Sei V = Q 4.. {,,, } ist eine Basis von V. Allgemeiner: ist e i = (,...,,,,..., ) der i-te Einheitsvektor, so ist {e,..., e n } eine Basis von K n, die sogenannte Standardbasis. 2. {,,, } ist auch eine Basis von V. 3. {,,,, } ist ein Erzeugendensystem, aber keine Basis von V, da die Menge nicht linear unabhängig ist. Es gilt nämlich: ( ) =. 89

90 { 4.,, } ist zwar linear unabhängig, aber kein Erzeugendensystem von V, da z. B. der Vektor nicht als Linearkombination von,, dargestellt werden kann. Für jeden Vektorraum V gilt: V selbst ist ein Erzeugendensystem. Allerdings ist V niemals linear unabhängig, da immer V gilt und = zeigt, dass {} V linear abhängig ist. Satz 38. Sei V ein K-Vektorraum, und seien B, B 2 V mit B B 2.. Ist B linear abhängig, so ist auch B 2 linear abhängig. 2. Ist B 2 linear unabhängig, so ist auch B linear unabhängig. 3. Ist B ein Erzeugendensystem von V, so ist auch B 2 ein Erzeugendensystem von V. 4. Ist B 2 kein Erzeugendensystem von V, so ist auch B kein Erzeugendensystem von V. Beweis.. Zu zeigen: es gibt v,..., v k B 2 und (α,..., α k ) K k \ {} mit α v + + α k v k =. Nach Annahme gilt dies für B anstelle von B 2, und damit wegen B B 2 erstrecht auch für B Folgt direkt aus Teil. 3. Zu zeigen: für alle v V existieren v,..., v k B 2 und α,..., α k K so dass v = α v + + α k v k. Nach Annahme gilt dies für B, und wegen B B 2 erstrecht auch für B. 4. Folgt direkt aus Teil 3. Satz 39. Sei V ein K-Vektorraum und B V. Dann sind folgende Aussagen äquivalent:. B ist eine Basis von V. 2. B ist ein Erzeugendensystem von V und für jedes b B gilt, dass B \ {b} kein Erzeugendensystem von V ist. 3. B ist linear unabhängig und für jedes v V \ B gilt, dass B {v} linear abhängig ist. 4. Jedes v V lässt sich in eindeutiger Weise als Linearkombination von Elementen aus B schreiben. 9

91 Beweis. () (2) Gäbe es ein b B, so dass B \ {b} auch ein Erzeugendensystem von V ist, dann gäbe es für dieses b eine Darstellung b = α b + + α k b k mit b,..., b k B \{b} und α,..., α k K. Dann ist aber α b + +α k b k +( )b =, d. h. B wäre linear abhängig. Das steht im Widerspruch zur Annahme, dass B eine Basis ist. (2) (3) zu zeigen: (a) B ist linear unabhängig und (b) B {v} ist linear abhängig für jedes v V \ B. (a) Wäre B linear abhängig, so gäbe es eine Abhängigkeit α b + + α k b k = für gewisse b,..., b k B und (α,..., α k ) K k \ {}. O.B.d.A. können wir annehmen, dass α. Dann aber ist b = ( α 2 α )b ( α k α )b k. Damit kann jede Darstellung eines Vektors v, in der b vorkommt, in eine andere übersetzt werden, in der b nicht vorkommt. Also ist auch B \ {b } ein Erzeugendensystem, im Widerspruch zur Annahme. (b) Sei v V \ B beliebig. Da B ein Erzeugendensystem ist, gibt es b,..., b k B und α,..., α k K mit v = α b + + α k b k. Aber dann gilt α b + + α k b k + ( )v =, d. h. {b,..., b k, v} ist linear abhängig, und also auch B {v}. (3) (4) (a) Existenz: zu zeigen ist, dass sich jedes v V als Linearkombination von Elementen aus B schreiben lässt. Für v B ist das offensichtlich. Nehmen wir also an, v B. Nach Voraussetzung B {v} linear abhängig, d. h. es gibt b,..., b k B und (α,..., α k ) K k \ {} mit α b + + α k b k + α k+ v =. Es kann nicht α k+ = sein, sonst wäre {b,..., b k } linear abhängig, und damit auch B. Wenn aber α k+ ist, haben wir v = ( α α k+ )b + + ( α k α k+ )b k, d. h. v lässt sich als Linearkombination von Elementen aus B schreiben. (b) Eindeutigkeit: Sind und v = α b + + α k b k v = α b + + α k b k 9

92 zwei Darstellungen eines Vektors v V durch Elemente von B, so folgt = (α α )b + + (α k α k )b k, und da B linear unabhängig ist, folgt α = α,..., α k = α k. (4) () Es ist klar, dass B ein Erzeugendensystem ist. Wäre B nicht linear unabhängig, so gäbe es b,..., b k B und (α,..., α k ) K k \ {} mit α b + + α k b k =. Eine andere Darstellung von V durch Elemente von B ist aber b + + b k =, im Widerspruch zur vorausgesetzten Eindeutigkeit solcher Darstellungen. Satz 4. Sei V ein K-Vektorraum, M V sei ein Erzeugendensystem von V und M 2 V sei linear unabhängig. Dann gilt M M 2. Beweis. Angenommen nicht. Dann ist k := M < M 2 insbesondere endlich und es gibt paarweise verschiedene Vektoren v,..., v k+ M 2. Nach Satz 38 ist {v,..., v k+ } linear unabhängig, weil M 2 linear unabhängig ist. Wir zeigen, dass {v,..., v k+ } linear abhängig ist und kommen so zu einem Widerspruch zur Annahme M < M 2. Schreibe M = {b,..., b k }. Da M nach Voraussetzung ein Erzeugendensystem ist, lässt sich jedes v i M 2 V als Linearkombination von b,..., b k schreiben, etwa Betrachte die Matrix v = α, b + α,2 b α,k b k. v k+ = α k+, b + α k+,2 b α k+,k b k. α, α,k A =..... K (k+) k. α k+, α k+,k Wegen Satz 23 in Verbindung mit Satz 24 gilt Rang A k. Damit gibt es β,..., β k+ K, von denen nicht alle Null sind, so dass d. h. β α,. α,k + + β k+ α k+,. α k+,k β α, + + β k+ α k+, =, β α,k + + β k+ α k+,k =,. =, 92

93 d.h. Addition dieser k Gleichungen liefert (β α, + + β k+ α k+, )b =, (β α,k + + β k+ α k+,k )b k =. = β (α, b + + α,k b k ) + + β k+ (α k+, b + + α k+,k b k ) }{{}}{{} =v also ist {v,..., v k+ } linear abhängig.. =v k+, Satz 4. Sei V ein K-Vektorraum und B, B 2 seien Basen von V. Dann gilt: B = B 2. Beweis. Da B als Basis insbesondere ein Erzeugendensystem von V ist und B 2 als Basis insbesondere linear unabhängig ist, folgt aus dem vorherigen Satz B B 2. Umgekehrt ist auch B 2 ein Erzeugendensystem und B ist linear unabhängig, so dass auch B 2 B gilt. Definition 32. Sei V ein K-Vektorraum und B eine Basis von V. Dann heißt dim V := B N { } die Dimension von V. Wegen des vorherigen Satzes hängt die Dimension nicht von der Wahl der Basis ab, sondern nur vom Vektorraum. Die Definition ist also in dieser Form zulässig. Ist M irgendeine linear unabhängige Teilmenge von V, so gilt M dim V, und ist M irgendein Erzeugendensystem von V, so ist M dim V. Wenn V sowohl als Vektorraum über K als auch als Vektorraum über einem anderen Körper K aufgefasst werden kann, dann hängt die Dimension im allgemeinen davon ab, welchen Körper man zugrunde legt. Man schreibt deshalb auch dim K V statt dim V, wenn der Körper nicht aus dem Zusammenhang klar ist. Beispiel.. dim{} = 2. dim K =, wenn man K als Vektorraum über sich selbst auffasst. 3. dim K n = n 4. dim K n m = nm 5. Sei v,..., v k K n und sei V = { α v + + α k v k : α,..., α k K } die Menge aller Linearkombinationen von v,..., v k. Klarerweise ist {v,..., v k } ein Erzeugendensystem von V, d. h. es gilt V = v,..., v k. 93

94 Wegen Satz 38 gilt daher dim V k. Gleichheit gilt genau dann, wenn {v,..., v k } linear unabhängig (und damit eine Basis) ist. Um das zu überprüfen bzw. um eine Basis zu bestimmen, berechnet man eine Treppenform von v. v k (Beweis: Übung.) K k n. Die von verschiedenen Zeilen bilden eine Basis von V. Insbesondere gilt: dim V = Rang v. v k. 6. Eine Basis von K[X] ist B = {, X, X 2, X 3,... }. Es gilt also dim K[X] =. Eine andere Basis von K[X] ist {, X, X(X ), X(X )(X 2), X(X )(X 2)(X 3),... }. Es gilt sogar: Wenn b: N K[X] \ {} eine beliebige Folge von Polynomen ist mit der Eigenschaft deg b n = n für alle n N, dann ist { b n : n N } eine Basis von K[X]. Dabei bezeichnet deg b n den Grad des Polynoms b n. 7. Eine Basis von K[[X]] ist nicht bekannt. Aus dem nächsten Satz folgt aber, dass wegen K[X] K[[X]] und dim K[X] = der Vektorraum K[[X]] allenfalls eine unendliche Basis haben kann. Im darauffolgenden Satz 43 werden wir zeigen, dass jeder Vektorraum eine Basis hat. Es gilt also dim K[[X]] =. Satz 42. dim V. Sei V ein K-Vektorraum und U V ein Unterraum von V. Dann gilt dim U Im Fall dim V < gilt außerdem dim U = dim V U = V. Beweis. Sei B U eine Basis von U und B V eine Basis von V. Dann gilt B U = dim U und B V = dim V und wegen U V auch B U V. Als Basis von U ist B U linear unabhängig, und als Basis von V ist B V ein Erzeugendensystem von V. Aus Satz 4 folgt deshalb B U B V. Damit ist die Ungleichung bewiesen. Zur Gleichheit ist offensichtlich, dass U = V dim U = dim V gilt. Es bleibt also zu zeigen, dass U V dim U = dim V U = V gilt. Angenommen nicht, d. h. angenommen es gilt U V. Dann gibt es also mindestens ein v V, das nicht in U liegt. Ist B eine Basis von U, so ist dann B {v} linear unabhängig, und damit dim V dim U + > dim U. Als nächstes wollen wir beweisen, dass jeder Vektorraum eine Basis hat. Dazu brauchen wir zunächst ein weiteres Axiom aus der Mengenlehre. Axiom. (Lemma von Zorn) Es sei M eine Menge, eine Halbordnung auf M (d. h. eine Relation, die reflexiv, transitiv und antisymmetrisch ist), und es gelte: Für jede Teilmenge T M, so dass auf T eine Totalordnung ist (d. h. es gilt x, y T : x y y x) existiert ein s M, so dass für jedes x T gilt x s. Dann gilt: m M x M : m x m = x. 94

95 Beispiel.. m s x 3 x 2 x 2. M = [, ] R. Es gilt: jede monoton steigende Folge x x 2 in [, ] hat eine obere Schranke in [, ], nämlich zum Beispiel sup{x, x 2,... }. (Beachte: [, ] ist abgeschlossen.) Aus dem Axiom folgt die Existenz eines Maximums in [, ]. Dieses Maximum ist natürlich das Element. 3. Sei A eine beliebige Menge. Betrachte M = P(A) und die Inklusion als Halbordnung. Es gilt: Für jede Teilmenge T M mit der Eigenschaft, dass U V oder V U für alle U, V T gilt, es ein S P(A) mit U S für alle U T, nämlich zum Beispiel S = U T U. Aus dem Axiom folgt die Existenz einer Menge U P(A), die nicht in einer noch größeren Menge enthalten ist. (So eine Menge U ist zum Beispiel A selbst.) Satz 43. (Basisergänzungssatz) Sei V ein K-Vektorraum und A V linear unabhängig. Dann gibt es eine Basis B von V mit A B. Insbesondere gilt: Jeder Vektorraum hat eine Basis. Beweis. Betrachte die Menge M = { U : A U V und U ist linear unabhängig } zusammen mit der Halbordnung. Jede Teilmenge T M mit U, V T : U V V U hat eine obere Schranke, nämlich zum Beispiel S = U T U. Klarerweise gilt U S für alle U T. Außerdem gilt auch S M (d. h. S ist linear unabhängig), denn für jede Wahl v,..., v k S von endlich vielen Vektoren gibt es endlich viele U,..., U k T, so dass v U,..., v k U k. Da T total geordnet ist, enthält eines dieser U i alle anderen, etwa U i U i2 U ik für gewisse i,..., i k. Dann gilt also v,..., v k U ik, und da U ik wie alle Elemente von T linear unabhängig ist, folgt aus α v + +α k v k = dass α = = α k =. Da v,..., v k beliebige Elemente von S waren, ist S linear unabhängig. Damit ist gezeigt, dass in M jede total geordnete Teilmenge eine obere Schranke hat. Aus dem Zornschen Lemma folgt deshalb die Existenz einer Menge B M, die maximal ist in dem Sinn, dass B {v} für jedes v V \ B linear abhängig ist. Mit Satz 39 folgt, dass B eine Basis von V ist. 95

96 Für endlich-dimensionale Vektorräume lässt sich der Satz durch ein weniger abstraktes Argument einsehen. Betrachte dazu folgenden Algorithmus : B := A 2 solange B kein Erzeugendensystem von V ist: 3 wähle ein v V \ B 4 setze B := B {v} 5 return B. Dabei bezeichnet B wie üblich den Unterraum von V, der von den Elementen von B erzeugt wird. Man überzeugt sich leicht durch Induktion, dass B während des gesamten Algorithmus linear unabhängig ist, also insbesondere auch am Ende. Ferner ist klar, dass B am Ende auch ein Erzeugendensystem ist, also der Algorithmus tatsächlich eine Basis von V produziert, die A enthält. Da sich in jedem Schleifendurchlauf die Dimension von B um eins erhöht, ist klar, dass der Algorithmus nach spätestens dim V (< ) vielen Schritten terminiert. Im Fall dim V = funktioniert dieses Argument nicht, weil dann der Algorithmus nicht terminiert. Beispiel. V = R 4, 5 A = { 2 3, 6 7 }. 4 8 a Um A zu einer Basis von V zu ergänzen, berechne eine Treppenform von ( a ) a 2 R 2 4 und fülle diese mit Einheitsvektoren zu einer quadratischen Matrix von maximalem Rang auf. A bildet zusammen mit den hinzugefügten Einheitsvektoren eine Basis von V. ( ) ( ) Daraus folgt, dass A {, } eine Basis von V ist. Natürlich gibt es andere Möglichkeiten. Zum Beispiel ist auch A { 2 4, } eine Basis 4 von V. a 2 5 Konstruktionen Wie man mit Vektoren rechnet, ist in Definition 29 festgelegt. Wir wollen jetzt mit ganzen Vektorräumen rechnen. Damit ist gemeint, dass wir aus gegebenen Vektorräumen neue Vektorräume 96

97 konstruieren wollen, und für diese Vektorräume wissen wollen, wie ihre Dimension mit der Dimension der ursprünglichen Vektorräume zusammenhängt, bzw. wie man aus bekannten Basen der ursprünglichen Räume eine Basis des neuen Raums ausrechnen kann. Beispiel. Nach Satz 37 gilt: Sind U, U 2 Unterräume eines K-Vektorraums V, so sind auch U U 2 und U + U 2 Unterräume. Wie bekommt man eine Basis für diese Räume, wenn man Basen B, B 2 von U und U 2 kennt? Nehmen wir zur Vereinfachung an V = K n.. U + U 2 : In diesem Fall ist B B 2 ein Erzeugendensystem, aber im allgemeinen keine Basis. Wie im Beispiel 5 nach Definition 32 gezeigt, kann man B B 2 zu einer Basis machen, indem man eine Treppenform der Matrix der Zeilenvektoren bestimmt und daraus die Nullzeilen streicht. Ist zum Beispiel U =,, U 2 =,, so gilt U + U 2 =,,, =,,. 2. U U 2. Für v V gilt v U U 2 genau dann, wenn sich v sowohl als Linearkombination von Elementen einer Basis B von U als auch als Linearkombination von Elementen einer Basis B 2 von U 2 schreiben lässt. Die Menge all dieser v lässt sich bestimmen, indem man ein lineares Gleichungssystem löst. Beispiel: U =,, U 2 =,. α + α 2 = β + β 2 α α 2 β β 2 =. (α, α 2, β, β 2 ). 97

98 Daraus folgt, dass { + ( ) } ein Erzeugendensystem von U U 2 ist. Satz 44. Seien U, U 2 endlich-dimensionale Unterräume eines K-Vektorraums V. Dann gilt: dim(u + U 2 ) = dim U + dim U 2 dim(u U 2 ). Beweis. Sei {b,..., b k } eine Basis von U U 2. Nach Satz 43 gibt es b k+,..., b m U und bk+,..., b l U 2, so dass {b,..., b k, b k+,..., b m } eine Basis von U und eine Basis von U 2 ist. Betrachte {b,..., b k, b k+,..., b l } B := {b,..., b k, b k+,..., b m, b k+,..., b l }. B ist ein Erzeugendensystem von U + U 2, denn jedes u U + U 2 lässt sich schreiben als u = u + u 2 mit u U und u 2 U 2, und jedes u U ist eine Linearkombination von {b,..., b k, b k+,..., b m } B und jedes u 2 U 2 ist eine Linearkombination von {b,..., b k, b k+,..., b l } B, und wenn also jedes u U und jedes u 2 U 2 eine Linearkombination von Elementen aus B ist, dann gilt dies auch für u = u + u 2. B ist auch linear unabhängig: Betrachte dazu α,..., α k, α k+,..., α m, α k+,..., α l K mit α b + + α m b m + α k+ bk+ + + α l bl =. Zu zeigen: α = = α m = α k+ = = α l =. Aus der angenommenen Relation folgt α b + + α m b }{{ m = ( α } k+ ) b k+ + + ( α l ) b l. }{{} U U 2 Beide Seiten liegen also in U U 2. Der Vektor auf den beiden Seiten der Gleichung hat deshalb auch eine Darstellung β b + +β k b k für gewisse β,..., β k K. Da {b,..., b k, b k+,..., b l } eine Basis von U 2 und damit linear unabhängig ist, folgt aus β b + + β k b k = ( α k+ ) b k+ + + ( α l ) b l zunächst, dass β = = β k = α k+ = = α l = ist. Wir haben es also mit dem Nullvektor zu tun, und deshalb folgt als nächstes aus α b + + α m b m = mit der linearen Unabhängigkeit der Basis {b,..., b m } von U auch α = = α m =. Damit ist gezeigt, dass B eine Basis von U +U 2 ist. Es folgt dim(u +U 2 ) = B = m+l k = dim U + dim U 2 dim(u U 2 ). Gilt U U 2 = {}, so schreibt man statt U + U 2 auch U U 2 und sagt, die Summe ist direkt. Im Fall einer direkten Summe gilt dim(u U 2 ) = dim U + dim U 2, weil ja dim{} = ist. 98

99 Wenn U = U + U 2 ist, dann lässt sich jeder Vektor u U schreiben als u = u + u 2 für ein u U und ein u 2 U 2. Bei einer direkten Summe ist diese Darstellung eindeutig. Aus dem Basisergänzungssatz folgt, dass es für jeden Unterraum U von V ein Unterraum W von V existiert mit V = U W. Einen solchen Raum W nennt man einen Komplementärraum von U. Der Komplementärraum von U ist im allgemeinen nicht eindeutig. W W U Satz 45. Seien U, W zwei K-Vektorräume und B U, B W Basen von U bzw. W. Dann ist die Menge V = U W zusammen mit (u, w ) + (u 2, w 2 ) := (u + u 2, w + w 2 ) in V in U in W α (u, w) = (α u, α w) in V in U in W ein K-Vektorraum, und B = (B U { W }) ({ U } B W ) ist eine Basis. Insbesondere gilt dim V = dim U + dim W. Beweis. Dass V ein Vektorraum ist, zeigt man durch Nachrechnen der nötigen Gesetze. Die Dimensionsaussage folgt direkt aus der Aussage über die Basis. Wir zeigen: B = (B U {}) ({} B W ) ist eine Basis von V. B ist linear unabhängig: Seien b,..., b k B und α,..., α k K mit α b + + α k b k =. Jedes b i hat die Form (b, ) für ein b B U oder (, b) für ein b B W. O.B.d.A. seien b,..., b i von der ersten und b i+,..., b k von der zweiten Form. Dann gilt α b + + α i b i = und α i+ b i+ + + α k b k =, und da B U und B W linear unabhängig sind, folgt α = = α i = und α i+ = = α k =. B ist ein Erzeugendensystem: Sei v V. Dann ist v = (u, w) für gewisse u U und w W. Daraus folgt, dass es α,..., α k K und u,..., u k B U sowie β,..., β l K und w,..., w l B W gibt mit u = α u + + α k u k und w = β w + + β l w l. Damit gilt v = ( ) ( ) ( ) ( ) ( ) u u uk = α + + α k + β + + β l. w w wl 99

100 Beispiel. U = R 2, W = R W w v = (u, w) V = U W u U Wenn eine Art Multiplikation von Vektorräumen ist, wie müsste dann eine passende Division aussehen? Wenn also ein Vektorraum V und ein Unterraum W von V gegeben ist, wie können wir dann sinnvoll erklären, was U := V/W sein soll, damit diese Operation in gewisser Weise die Produktbildung V = U W rückgängig macht? Die Idee ist, dass man alle Vektoren v V, die den gleichen U-Anteil haben, als ein und denselben Vektor auffast, d. h. dass man die jeweiligen W -Anteile der Vektoren einfach ignoriert. Formal erreicht man das, indem man auf V die Äquivalenzrelation einführt mit v v 2 v v 2 W. Dann gilt nämlich v v 2 genau dann, wenn v, v 2 den gleichen U-Anteil haben, denn dieser hebt sich dann bei der Bildung der Differenz heraus und es bleibt nur noch die Differenz der (möglicherweise unterschiedlichen) W -Anteile übrig. Es ist leicht nachzuprüfen, dass tatsächlich eine Äquivalenzrelation ist: Reflexivität: Da W als Unterraum von V insbesondere ein Vektorraum ist, gilt W. Damit gilt für jedes v V, dass v v = W, also v v. Symmetrie: v v 2 v v 2 W ( ) (v v 2 ) W v 2 v W v 2 v. Im zweiten Schritt wird wieder verwendet, dass W ein Vektorraum ist, und also abgeschlossen unter Skalarmultiplikation. Transitivität: v v 2 v v 2 W v 2 v 3 v 2 v 3 W } {{ } (v v 2 ) + (v 2 v 3 ) = v v 3 W v v 3 Die Vektoren mit dem selben U-Anteil bilden genau die Äquivalenzklassen bezüglich.

101 W [v] U Wir zeigen als nächstes, dass sich die Menge der Äquivalenzklassen als Vektorraum auffassen lässt. Diesen Vektorraum nennt man dann den Quotientenraum V/W. Satz 46. Sei V ein K-Vektorraum, W V ein Unterraum von V. Für v, v 2 V sei definiert v v 2 v v 2 W. Die Menge U := V/W := V/ bildet zusammen mit einen K-Vektorraum. +: U U U, [v ] + [v 2 ] := [v + v 2 ] : K U U, α[v] := [αv] Beweis. Zu zeigen ist: (a) die Definitionen sind repräsentantenunabhängig, und (b) (U, +, ) ist ein Vektorraum. (a) Addition: Skalarmultiplikation: v v 2 v v 2 W ṽ ṽ 2 ṽ ṽ 2 W } {{ } (v v 2 ) + (ṽ ṽ 2 ) W v + ṽ v 2 + ṽ 2 v v 2 v v 2 W α(v v 2 ) = αv αv 2 W αv αv 2. (b) Die nötigen Gesetze sind erfüllt, weil sie nach Voraussetzung in V erfüllt sind und sich von dort übertragen. Definition 33. Der Vektorraum V/W aus obigem Satz heißt der Quotientenraum (engl. quotient space) oder Faktorraum von V nach W. Satz 47. Sei V ein K-Vektorraum, W V ein Unterraum, U V ein Komplementärraum von W (d. h. V = U W, d. h. V = U + W und U W = {}). Weiter sei B eine Basis von U. Dann ist B := { [b] : b B } eine Basis von V/W. Wenn U endlich-dimensional ist, gilt insbesondere dim V/W = dim U. (Wenn auch V und W endlich-dimensional sind, gilt weiters dim U = dim V dim W.)

102 Beweis. Die Dimensionsaussagen folgen unmittelbar aus der Basiseigenschaft. Daher ist nur zeigen: B ist linear unabhängig und ein Erzeugendensystem. (a) B ist linear unabhängig: Seien α,..., α k K und [b ],..., [b k ] B so, dass α [b ] + + α k [b k ] = []. Dann ist [α b + + α k b k ] = []. Dann ist α b + + α k b }{{ k W. } U Dann α b + +α k b k =, da U W = {}. Dann α = = α k =, da B linear unabhängig ist. (b) B ist ein Erzeugendensystem: Sei [x] V/W. Wegen U +W = V lässt sich x schreiben als x = u+w für gewisse u U und w W. Dann lässt sich u schreiben als u = α b + +α k b k für gewisse α,..., α k K und b,..., b k B. Dann ist [x] = [u] = [α b + + α k b k ] = α [b ] + + α k [b k ]. 5 Beispiel. V = R 4, W = 2 3, 6 7. Nach dem Beispiel auf Seite 96 ist U =, 4 8 ein Komplementärraum von W, und also ist {[ ], [ ] } eine Basis von V/W. Die nächste Konstruktion ist wieder eine Art Multiplikation von Vektoräumen. Dabei nimmt man nicht das kartesische Produkt U W der Räume selbst, sondern betrachtet den Vektorraum, der das kartesische Produkt einer Basis von U mit einer Basis von W als Basis hat. Dazu beachte man zunächst, dass man jede beliebige Menge M als Basis eines K-Vektorraums auffassen kann, nämlich des Raums F K (M) aller Funktionen f : M K mit {x M : f(x) } < zusammen mit der naheliegenden Addition und Skalarmultiplikation. Man nennt F K (M) den freien Vektorraum über M. Die Menge M ist insofern eine Basis von F K (M), als man jedes m M identifizieren kann mit der Funktion m: M K mit m(x) = falls x = m und m(x) = falls x m. Für ein Element v F K (M) mit v(m ) = α, v(m 2 ) = α 2 und v(m) = für alle m M \ {m, m 2 } schreibt man α m + α 2 m 2, usw. Beispiel.. Sei K = Q und M = {a, b, c}. Dann besteht F K (M) aus allen Linearkombinationen αa+βb+γc mit α, β, γ K. Streng genommen hat diese Summe keine eigene Bedeutung sondern ist nur eine Kurzschreibweise für die Funktion f : M K mit f(a) = α, f(b) = β, f(c) = γ. Allerdings sind die Addition und Skalarmultiplikation auf F K (M) genau so definiert, wie es die Notation suggeriert. Zum Beispiel gilt 2(5a 3b+8c) (2a+3b c) = 8a 3b + 7c. 2

103 2. Für n N ist K n = F K ({, 2,..., n}), wenn man die gewohnte Vektorschreibweise a = (α,..., α n ) für Elemente a von K n interpretiert als eine Schreibweise für die Funktion a: {,..., n} K mit a(i) = α i für i =,..., n. Die Addition und Skalarmultiplikation entsprechen genau den gewohnten Vektor-Rechenregeln. In diesem Fall ist die Kurzschreibeweise a = α +α α n n nicht zu empfehlen, weil die Symbole,..., n sowohl Elemente in M als auch Elemente in K bezeichnen können. Wenn man aber statt {,..., n} die Menge {e,..., e n } nimmt, wobei e,..., e n als neue Symbole verstanden werden, die nicht auch schon für gewisse Elemente von K stehen, dann ist die Schreibeweise a = α e + + α n e n durchaus suggestiv. Sie passt insbesondere mit der gewohnten Schreibweise zusammen, wenn man die e i nicht als formale Symbole interpretiert, sondern als Variablen, die für die Einheitsvektoren (,...,,,,..., ) stehen. 3. Ähnlich wie im vorherigen Beispiel kann man sagen, dass K[X] nichts anderes ist als F K (N), wobei man für die Basiselemente,, 2,... zur besseren Unterscheidbarkeit von Körperelementen, X, X 2,... schreibt. Es sei noch einmal daran erinnert, dass auch bei unendlich großen Basen Linearkombinationen immer nur von endlich vielen Vektoren gebildet werden können. Deshalb ist z.b. +X +X 2 +X 3 + kein Element von K[X]. Wenn nun U und W zwei Vektorräume sind und B U ist eine Basis von U und B W eine Basis von W, so kann man definieren U W := F K (B U B W ). Man nennt diesen Vektorraum das Tensorprodukt (engl. tensor product) von U und W, seine Elemente heißen Tensoren. Ein Tensor ist also eine Linearkombination von Paaren (b U, b W ), wobei b U B U und b V B V ist. Sind u U, w W beliebig, etwa u = α b () U + + α kb (k) U für gewisse α,..., α k K und b () U,..., b(k) U B U, und w = β b () W + + β mb (m) W für gewisse β,..., β m K und b () W,..., b(m) W B W, so definiert man k m u w := α i β j (b (i) U, b(j) V ) U W. i= j= Insbesondere gilt dann b U b W = (b U, b W ) für alle b U B U und b W B W. Ferner gelten die Rechenregeln α(u w) = (αu) w = u (αw) und (u + u 2 ) w = (u w) + (u 2 w) und u (w + w 2 ) = (u w ) + (u w 2 ) und insbesondere u = w = für alle α K, u, u, u 2 U und w, w, w 2 W. Beispiel. Im Fall U = K n und W = K m kann man sich V = U W als den Raum K n m der Matrizen vorstellen. Nimmt man für U und W jeweils die Standardbasis {e,..., e n } U bzw. {ẽ,..., ẽ m } W, so entspricht e i ẽ j der Matrix, die eine an der Stelle (i, j) hat, und überall sonst nur Nullen. Allgemeiner: Sind u = (u,..., u n ) U, w = (w,..., w m ) W zwei beliebige Vektoren, so entspricht der Tensor u w U W der Matrix, die man erhält, wenn man u als Spaltenvektor mit w als Zeilenvektor multipliziert, also u u w u w 2 u w m u 2. (w u 2 w u 2 w 2 u 2 w m, w 2,..., w m ) = u n u n w u 2 w n u n w m Dass nicht jede Matrix diese Form hat, verdeutlicht, dass sich nicht jeder Tensor v U W 3

104 schreiben lässt als v = u w für gewisse ( u ) U, w W. Es ( gibt zum Beispiel ) ( im Fall ) n = m = 2 keine (u, u 2 ), (w, w 2 ) K 2 u u w, so dass (w u, w 2 ) = u w 2 = ist. 2 u 2 w u 2 w 2 Die obige Definition von U W ist etwas unbefriedigend, weil sie auf Basen von U und W zurückgreift. Wählt man statt B U und B W zwei andere Basen B U, B W, so ist F K(B U B W ) streng genommen nicht dasselbe wie F K (B U B W ). Es zeigt sich aber, dass diese Räume im wesentlichen dieselben sind. Um das konkret zu machen, verwendet man den Begriff der Isomorphie von Vektorräumen, um den es im folgenden Abschnitt gehen wird. 6 Lineare Abbildungen und Isomorphie Definition 34. Seien V, W zwei K-Vektorräume.. h: V W heißt Homomorphismus oder lineare Abbildung, falls gilt x, y V α, β K : h(α x + β y) = α h(x) + β h(y). in V in V in V in W in W Ein Homomorphismus von V nach V heißt auch Endomorphismus. 2. Ein bijektiver Homomorphismus heißt Isomorphismus. Wenn ein solcher existiert, sagt man, V und W sind (zueinander) isomorph. Schreibweise: V = W. Ein Isomorphismus von V nach V heißt auch Automorphismus. 3. Ist h: V W ein Homomorphismus, so heißt der Kern (engl. kernel) und das Bild (engl. image) von h. ker h := { x V : h(x) = } im h := h(v ) = { h(x) : x V } in W h V W ker h im h 4

105 Beispiel.. f : R R, f(x) = 3x ist linear. Die Funktionen g : R R, g(x) = 3x+5 und h: R R, h(x) = x 2 sind nicht linear. 2. V = K m, W = K n. Für jede beliebige Matrix A K n m ist eine lineare Abbildung. Es gilt ja h: V W, h(x) = Ax h(αx + βy) = A(αx + βy) = αax + βay = αh(x) + βh(y) für alle α, β K und alle x, y V. 3. V = K[X], W = K K. Die Funktion h: V W, h(a + a X + + a n X n ) := (z a + a z + + a n z n ), die jedem Polynom die entsprechende Polynomfunktion zuordnet, ist linear. 4. Die Abbildung ist linear. h: K[[X]] K[X], h( a n X n ) := 2 k= k= a n X n 5. Die Abbildung h: K n m K n, die dadurch definiert ist, dass h(a) die erste Spalte von A ist, ist linear. 6. Sei V = K[[X]] und N N fix. Dann ist die Abbildung [X N ]: V K, [X N ] a n X n := a N, die aus einer formalen Potenzreihe den N-ten Koeffizient extrahiert, linear. 7. Sei V der R-Vektorraum aller konvergenten Folgen, W = R. Dann ist n= h: V W, h( (a n ) n= ) := lim n a n eine lineare Abbildung. Ihr Kern ist der Raum aller Nullfolgen. 8. Die Funktion h: Q Q( 2) mit h(x) = x + 2 für alle x Q ist linear. 9. Die Funktionen Re, Im: C R, die jeder komplexen Zahl ihren Realteil bzw. ihren Imaginärteil zuordnen, sind linear, wenn man C als Vektorraum über R auffasst.. Sei V = C 5 ([, ], R) die Menge aller fünf mal stetig differenzierbaren Funktionen f : [, ] R. Die Funktion h: V R 6 mit h(f) = (f(), f (),..., f (5) ()) ist linear.. Seien v 2,..., v n K n fix und h: K n K definiert durch h(x) := det(x, v 2,..., v n ). Dann ist h eine lineare Funktion. Dabei ist mit (x, v 2,..., v n ) die Matrix gemeint, deren Spalten x, v 2,..., v n sind. 5

106 2. Sei V ein K-Vektorraum, U ein Unterraum von V, W = V/U und h: V W, h(x) = [x]. Dann ist h eine lineare Abbildung. Ihr Kern ist U. 3. Sind U, W zwei K-Vektorräume und V = U W, so ist π : V U, π(u, w) = u eine lineare Abbildung, die zwar surjektiv aber nicht injektiv ist. Ihr Kern ist ker π = {} W. 4. Sind U, W zwei K-Vektorräume, so ist h: U W U W, h(u, w) = u w eine lineare Abbildung, aber kein Isomorphismus, weil h zwar injektiv, aber nicht surjektiv ist. Für jedes fest gewählte w W ist auch die Abbildung h: U U W, h(u) = u w eine lineare Abbildung. 5. Wenn V = U W gilt, so ist U = V/W. 6. F K ({,..., n}) = K n. 7. Ist V irgendein Vektorraum und B eine Basis von V, so gilt F K (B) = V. 8. Für zwei K-Vektorräume U, W gilt (U W ) = (W U) und (U W ) = (W U). Echte Gleichheit gilt in beiden Fällen nur, wenn U = W ist. 9. Die Abbildung : K n m K m n, die jeder Matrix A K n m ihre Transponierte zuordnet, ist linear. 2. Es gilt K n K m = K n m. 2. Sei V = C ([, ], R). Dann ist die Abbildung d dx, die jedem Element des Vektorraums dessen Ableitung zuordnet, linear. Ihr Kern ist die Menge der konstanten Funktionen. Für V = K[[X]] definiert man d dx : V V, d dx a n X n := n= (n + )a n+ X n. n= Auch diese (formale) Ableitung ist eine lineare Abbildung. 22. Die Abbildung ist linear. I : C([, ], R) R, I(f) := f(t) dt 23. Sei V = R n+ und W = R[X]. Ferner seien x,..., x n R fest gewählte paarweise verschiedene reelle Zahlen. Man kann zeigen, dass es dann für jede Wahl von y,..., y n R genau ein Polynom p R[X] mit Grad höchstens n gibt, so dass p(x i ) = y i für alle i gilt. Mit p(x i ) ist dabei die Auswertung der zu p gehörigen Polynomfunktion an der Stelle x i gemeint. Man nennt p das Interpolationspolynom für (x, y ),..., (x n, y n ). Die Abbildung, die jedem (y,..., y n ) V dieses Polynom p zuordnet, ist linear. 6

107 Satz 48.. Die Verkettung linearer Abbildungen ist linear. Die Umkehrfunktion einer bijektiven linearen Abbildung ist linear. 2. Für je drei Vektorräume U, V, W gilt U = U, U = V V = U, U = V V = W U = W. 3. Sind V, W zwei K-Vektorräume und ist h: V W ein Homomorphismus, so ist ker h ein Unterraum von V und im h ein Unterraum von W. Beweis.. Verkettung: Seien U, V, W drei K-Vektorräume, f : U V und g : V W Homomorphismen und h: U W, h(x) := g(f(x)) deren Verkettung. Für α, β K und x, y V gilt dann: h(αx+βy) = g(f(αx+βy)) = g(αf(x)+βf(y)) = αg(f(x))+βg(f(y)) = αh(x)+βh(y). Umkehrfunktion: Seien V, W zwei K-Vektorräume, f : V W ein Isomorphismus und f : W V seine Umkehrfunktion. Für α, β K und x, y W gilt dann f(αf (x) + βf (y)) = αf(f (x)) + βf(f (y)) = αx + βy. Anwendung von f auf beiden Seiten und Rückwärtslesen der Gleichung liefert f (αx + βy) = αf (x) + βf (y). 2. Reflexivität: U = U gilt, da die Identitätsfunktion id U linear ist. Symmetrie: Folgt auch aus Teil (Linearität der Umkehrfunktion). Transitivität: Folgt aus Teil (Linearität der Verkettung). 3. Für beliebige x, y ker h und α, β K gilt: h(x) = h(y) = h(αx + βy) = αh(x) + βh(y) = α + β = Damit ist ker h ein Unterraum von V. αx + βy ker h. Sind x, y im h beliebig, etwa x = h(u), y = h(v) für bestimmte u, v V, und sind α, β K beliebig, so gilt αx + βy = αh(u) + βh(v) = h(αu + βv), also αx + βy im h. Damit ist im h ein Unterraum von W. Beispiel. V = K m, W = K n, h: V W, h(x) = Ax für eine bestimmte Matrix A K n m. Eine Basis für ker h = ker A kann man berechnen wie in Abschnitt 9 erklärt. Ein Erzeugendensystem für im h ist { h(b) : b B }, wenn B eine Basis von V ist. Wie man daraus eine Basis gewinnt, haben wir im Beispiel 5 nach Definition 32 gesehen. 7

108 Satz 49. Seien V, W zwei K-Vektorräume, h: V W ein Homomorphismus. Dann gilt: h ist genau dann injektiv, wenn ker h = {} ist. Beweis. Sei x ker h. Dann gilt h(x) =. Es gilt aber auch h() =. Da h injektiv ist, folgt x =. Seien x, y V mit h(x) = h(y). Dann gilt h(x) h(y) =, also h(x y) =, also x y ker h, also x y =, also x = y. Satz 5. Seien V, W zwei K-Vektorräume, B eine Basis von V, und f : B W eine beliebige Funktion. Dann existiert genau eine lineare Abbildung h: V W mit h(b) = f(b) für alle b B. Beweis. (a) Existenz: Jedes x V lässt sich schreiben als x = α b + + α k b k für gewisse α,..., α k K und b,..., b k B. Definiere h(x) := α f(b ) + + α k f(b k ). Da die Darstellung von x als Linearkombination von Basiselementen eindeutig ist, ist h wohldefiniert. Man überzeugt sich leicht, dass h linear ist und dass h(b) = f(b) für alle b B gilt. (b) Eindeutigkeit: Für jedes x V mit x = α b + + α k b k muss gelten h(x) = h(α b + + α k b k ) Eine andere Wahl von h ist also nicht möglich. Beispiel. = α h(b ) + + α k h(b k ) = α f(b ) + + α k f(b k ).. V = Q 4, B = {e,..., e 4 }, W = Q 3. Betrachte die Funktion f : B W definiert durch e (, 2, 3), e 2 (4, 5, 6) e 3 (7, 8, 9), e 4 (,, 2). Dann ist h: V W die Abbildung, die (x, x 2, x 3, x 4 ) V auf 4 7 x 2 + x x x abbildet. Mit anderen Worten: 4 7 h(x) = x Seien U, W zwei K-Vektorräume, B U, B U und B W, B W je zwei Basen von U bzw. W. Die lineare Abbildung h: F K (B U B W ) F K ( B U B W ) sei dadurch definiert, dass jeder Basistensor b U b W mit b U B U, b W B W auf den entsprechenden Tensor b U b W F K ( B U B W ) abgebildet wird. Ferner sei die lineare Abbildung h: F K ( B U B W ) F K (B U B W ) dadurch definiert, dass jeder Basistensor b U b W mit b U B U, b W B W auf den entsprechenden Tensor bu b W F K (B U B W ) abgebildet wird. 8

109 Man kann nachrechnen, dass h h die Identität ist, d.h. h und h sind bijektiv, d.h. F K (B U B W ) = F K ( B U B W ). Für alle u U und w W gilt h(u w) = u w. In diesem Sinn ist die Definition von U W unabhängig von der Wahl der Basen von U und W. Satz 5. Seien V, W zwei endlich-dimensionale K-Vektorräume, h: V W ein Homomorphismus. Dann gilt: dim V = dim ker h + dim im h. Beweis. Sei {b,..., b n } eine Basis von ker h. Nach Satz 43 gibt es b n+,..., b m V, so dass {b,..., b m } eine Basis von V ist. Wir zeigen, dass B = {h(b n+ ),..., h(b m )} eine Basis von im h ist. Daraus folgt die Behauptung. (a) B ist linear unabhängig: Seien α n+,..., α m K so, dass α n+ h(b n+ )+ +α m h(b m ) =. Dann ist h(α n+ b n+ + + α m b m ) =, also α n+ b n+ + + α m b m ker h. Dann aber gibt es α,..., α n K so dass α b + + α n b n = α n+ b n+ + + α m b m. Da {b,..., b m } als Basis von V linear unabhängig ist, folgt, dass alle α i Null sind, insbesondere α n+,..., α m. (b) B ist Erzeugendensystem: Sei y im h. Dann gibt es ein x V mit y = h(x). Dann gibt es α,..., α m K mit x = α b + + α m b m. Und dann gilt h(x) = α h(b ) + + α n h(b n ) +α }{{} n+ h(b n+ ) + + α m h(b m ). =, da {b,..., b n} Basis von ker h Mit Satz 5 und einigen früheren Resultaten können wir einiges über die vier Räume aussagen, die einer Matrix zugeordnet sind. Sei A K n m eine Matrix, r = Rang A. Zunächst gilt für die Dimensionen: Zeilenraum: dim coim A = r (wegen Satz 23) Spaltenraum: dim im A = r (wegen dim coim A = r und Satz 24) Kern: dim ker A = m r (wegen dim im A = r und Satz 5) Ko-Kern: dim coker A = n r (wegen dim coim A = r und den Sätzen 5 und 24). Als nächstes gilt K m = ker A + coim A. Das sieht man ein, wenn man sich erinnert, wie man eine Basis von ker A aus der Treppennormalform bestimmt (vgl. Seite 56). Anhand der Lage der Treppenstufen erkennt man, dass die Zeilen von A die Basis des Lösungsraums zu einer Basis des gesamten Raums K m ergänzen. Die Summe ist sogar direkt, wie mit Satz 44 leicht überprüft: ker A und coim A sind Unterräume von K m und es gilt m = dim K m = dim ker A + dim coim A dim(ker A coim A) = m r + r dim(ker A coim A), also dim(ker A coim A) =, also ker A coim A = {}. Analog gilt K n = im A coker A, indem man dasselbe Argument auf A anwendet. Die Zusammenhänge sind in der folgenden Zeichnung schematisch dargestellt. Man sieht links, dass jedes x K m sich in einen coim A-Anteil und einen ker A-Anteil zerlegen lässt. Die Matrix A bildet x nach im A ab. Der ker A-Anteil von x landet bei, und das Bild y = Ax von x ist identisch mit dem Bild des coim A-Anteils von x. Es gibt keine Vektoren, die auf coker A \ {} abgebildet werden. 9

110 coim A (r Dimensionen) im A (r Dimensionen) A Ax = Ax = y x A Ax = x = x + x A x ker A (m r Dimensionen) coker A (n r Dimensionen) Als Anwendung können wir nun den noch ausstehenden Korrektheitsbeweis von Algorithmus 5 auf Seite 6 zu Ende bringen. Wir hatten dort eine Matrix B K k m und eine Basis {a,..., a n } K m von ker B, d. h. { x K m : Bx = } = { α a + + α n a n : α,..., α n K }. Die Behauptung war, dass dann auch gilt { x K m : Ax = } = { α b + + α k b k : α,..., α k K }, wobei b,..., b k die Zeilenvektoren von B sind und A = a. a n. Die Richtung ist bereits gezeigt worden. Die rechte Seite ist also ein Unterraum des Vektorraums auf der linken Seite. Die linke Seite ist ker A, die rechte ist coim B. Da {a,..., a n } eine Basis und damit linear unabhängig ist, gilt Rang A = n und daher dim ker A = m n. Außerdem folgt dim ker B = n und daher dim coim B = m n. Damit sind ker A und coim B zwei Unterräume von K m derselben Dimension. Wegen ker A coim B folgt aus Satz 42, dass ker A = coim B gilt, was zu zeigen war. Satz 52. Seien V, W zwei endlich-dimensionale K-Vektorräume mit dim V = dim W, und sei h: V W ein Homomorphismus. Dann gilt: h ist injektiv h ist surjektiv h ist bijektiv. Beweis. Die zweite Äquivalenz folgt unmittelbar aus der ersten. Wir zeigen die erste. h ist injektiv. Dann ist ker h = {} nach Satz 49. Mit Satz 5 folgt dann dim V = +dim im h, und wegen dim V = dim W also dim W = dim im h. Nach Satz 42 folgt im h = W, d.h. h ist surjektiv. h ist surjektiv. Dann ist im h = W, also dim im h = dim W, also dim ker h = dim V dim W = nach Satz 5 und Voraussetzung dim V = dim W. Also gilt ker h = {}. Wegen Satz 49 folgt, dass h injektiv ist. Satz 53. Seien V, W zwei endlich-dimensionale K-Vektorräume. Dann gilt:. dim V dim W es gibt einen injektiven Homomorphismus h: V W. 2. dim V dim W es gibt einen surjektiven Homomorphismus h: V W. 3. dim V = dim W es gibt einen bijektiven Homomorphismus h: V W.

111 Beweis. Wir zeigen den dritten Teil. Der Beweis für die ersten beiden Teile geht ähnlich. Sei A = {a,..., a n } eine Basis von V und B = {b,..., b n } eine Basis von W. Nach Satz 5 existiert eine lineare Abbildung h: V W mit h(a i ) = b i für i =,..., n. Diese lineare Abbildung ist injektiv, denn also ker h = {}. = h(α a + + α n a n ) = α h(a ) + + α n h(a n ) = α b + + α n b n α = = α n =, h ist auch surjektiv, denn ist y W beliebig, so ist y = β b + + β n b n für gewisse β,..., β n W, also y = β h(a ) + + β n h(a n ) = h(β a + + β n a n ) im h. Ist h: V W bijektiv und A = {a,..., a n } eine Basis von V, so ist B = {h(a ),..., h(a n )} eine Basis von W : die lineare Unabhängigkeit folgt aus der Injektivität von h, und dass B ein Erzeugendensystem ist, folgt aus der Surjektivität. Satz 54. (Homomorphiesatz für Vektorräume) Seien V, W zwei K-Vektorräume, h: V W ein Homomorphismus. Dann gibt es eine surjektive lineare Abbildung g : V V/ ker h und eine injektive lineare Abbildung f : V/ ker h W mit h = f g. Wenn h surjektiv ist, dann auch f. Insbesondere gilt V/ ker h = im h. V g h V/ ker h f W Beweis. Da Vektorräume insbesondere auch abelsche Gruppen sind, und lineare Abbildungen insbesondere auch Gruppenhomomorphismen, haben wir die meisten Aussagen des Satzes bereits in Satz bewiesen. Es bleibt hier nur noch zu zeigen, dass die dort angegebenen Funktionen g : V V/ ker h, f : V/ ker h W, g(x) = [x] f([x] ) = h(x) auch mit der Skalarmultiplikation verträglich sind. Und in der Tat gilt g(αx) = [αx] = α[x] = α g(x) f(α[x] ) = f([αx] ) = h(αx) = α h(x).

112 Beispiel. V = R 3, W = R 2, h: V W, h(x, y, z) = (2x, x). Dann gilt ker h =, ( ) 2 und im h =. Geometrisch ist ker h die (y, z)-ebene in R 3 und im h eine Gerade in R 2. Die Elemente von V/ ker h kann man sich vorstellen als die Ebenen, die parallel zu ker h liegen. Diese bilden einen Vektorraum, der genau wie im h eindimensional ist. Jede Ebene in V/ ker h ist eindeutig charakterisiert durch ihren Schnittpunkt mit der x-achse. Einen Isomorphismus zwischen V/ ker h und im h erhält man, indem man die Ebene durch (x,, ) auf (2x, x) abbildet. Beachte, dass zwei Punkte (x, y, z) R 3 genau dann dasselbe Bild h(x, y, z) R 2 haben, wenn sie zur selben Ebene gehören (vgl. die Beispiele zu Satz 6). x z x v im h ker h y u V V/ ker h W Satz 55. (Isomorphiesätze). Seien U, W zwei Unterräume eines K-Vektorraums V. Dann gilt U/(U W ) = (U + W )/W. 2. Im Fall U W gilt außerdem (V/U)/(W/U) = V/W. Beweis.. Nach Satz 43 gibt es einen Raum W U mit (U W ) W = U. Wähle so einen Raum W. Dann lässt sich jedes u U schreiben als u = u + u 2 für gewisse eindeutig bestimmte u U W und u 2 W. Betrachte die Abbildung h: U (U + W )/W, h(u + u 2 ) = [u 2 ]. Diese Funktion ist linear und surjektiv und es gilt ker h = U W. Aus Satz 54 folgt deshalb die Behauptung. U h (U + W )/W U/(U W ) 2. Sei Ũ W so, dass U Ũ = W, und sei W V so, dass W W = V. Dann ist V/U = Ũ + W und W/U = Ũ, und unter Verwendung von Teil ist (V/U)/(W/U) = (Ũ + W )/Ũ = W / (Ũ W ) = }{{} W = V/W. ={} 2

113 7 Koordinatendarstellungen Definition 35. Sei V ein endlich-dimensionaler K-Vektorraum.. Ein Vektor B = (b,..., b n ) V n heißt geordnete Basis von V, falls {b,..., b n } eine Basis von V ist. 2. Sei B = (b,..., b n ) V n eine geordnete Basis von V und x V. Sind α,..., α n K so, dass x = α b + + α n b k, dann heißt der Vektor (α,..., α n ) K n die Koordinatendarstellung von x bezüglich B. Für i =,..., n heißt dann α i die i-te Koordinate von x bezüglich B. Eine geordnete Basis ist nichts anderes als eine Basis, bei der eine bestimmte Reihenfolge für die Basiselemente festgelegt ist. Man beachte, dass {a, b, c} = {c, a, b} aber (a, b, c) (c, a, b) ist. Beim Teil 2 der Definition ist zu beachten, dass es zu jedem x V genau eine passende Koordinatendarstellung (α,..., α n ) gibt, weil {b,..., b n } nach Voraussetzung eine Basis ist. Beispiel.. Vektoren x = (x,..., x n ) K n sind Koordinatendarstellungen von sich selbst bezüglich der Standardbasis E = (e,..., e n ). 2. Ist B = (b, b 2, b 3, b 4 ) eine geordnete Basis eines Vektorraums V, so ist B = (b 3, b, b 4, b 2 ) auch eine geordnete Basis von V, und zwar eine von B verschiedene. Ist (x, x 2, x 3, x 4 ) die Koordinatendarstellung eines bestimmten Vektors bezüglich B, so ist (x 3, x, x 4, x 2 ) die Koordinatendarstellung desselben Vektors bezüglich B. 3. B = (, X, X 2, X 3 ) K[X] 4 ist eine geordnete Basis für den Unterraum von K[X] bestehend aus allen Polynomen vom Grad höchstes drei. Eine andere geordnete Basis ist B = (, X, X(X ), X(X )(X 2)). Die Koordinatendarstellung von 2 + 3X 7X 2 +5X 3 bezüglich B ist (2, 3, 7, 5). Die Koordinatendarstellung desselben Polynoms bezüglich B ist (2,, 8, 5). 4. Im Fall V = K n lässt sich eine geordnete Basis als Matrix auffassen. Per Konvention macht man die Basisvektoren zu den Spalten der Matrix. Dann ist zum Beispiel B = eine geordnete Basis von Q 3. Ist 2 die Koordinatendarstellung eines Vektors bezüglich dieser Basis B, so erhält man die Koordinatendarstellung desselben Vektors 4 bezüglich der Standardbasis durch die Rechnung =

114 7 Ist umgekehrt 4 die Koordiantendarstellung eines Vektors bezüglich der Standardbasis, 3 so bekommt man dessen Darstellung bezüglich der Basis B, indem man das lineare Gleichungssystem 7 α + α α 3 4 = löst. Das Ergebnis lautet 6. Bei einem gegebenen Tupel von Körperelementen ist also nicht ohne weiteres klar, welcher Vektor damit beschrieben wird. Man muss immer auch die Basis wissen, bezüglich der die Koordinaten zu verstehen sind. Ist keine Basis angegeben, wird meistens die Standardbasis gemeint sein. Satz 56. Sei V ein endlich-dimensionaler K-Vektorraum, B = (b,..., b n ) V n eine geordnete Basis von V. Dann ist die Abbildung h: V K n, die jedem x V dessen Koordinatendarstellung bezüglich B zuordnet, ein Isomorphismus. Insbesondere sind alle endlich-dimensionalen K-Vektorräume der gleichen Dimension zueinander isomorph. Beweis. Übung. Im vorangegangenen Beispiel haben wir gesehen, wie man zwischen einer Koordinatendarstellung eines Vektors v K n bezüglich der Standardbasis und der Koordinatendarstellung bezüglich einer anderen geordneten Basis hin und her wechseln kann: ist v K n ein Vektor (und damit die Koordinatendarstellung von sich selbst bezüglich der Standardbasis), so ist Bv die Koordinatendarstellung desselben Vektors bezüglich B. Und ist w K n die Koordinatendarstellung eines Vektors bezüglich B, so ist B w die Koordinatendarstellung desselben Vektors bezüglich der Standardbasis. (Matrizen, die geordnete Basen enthalten, sind immer invertierbar, weil ihre Spalten linear unabhängig sind.) Die folgende Definition verallgemeinert diesen Sachverhalt. Definition 36. Seien V, W zwei endlich-dimensionale K-Vektorräume, A = (a,..., a m ) V m eine geordnete Basis von V und B = (b,..., b n ) W n eine geordnete Basis von W. Weiter sei h: V W eine lineare Abbildung. Die Matrix M K n m, deren (i, j)-ter Eintrag die i-te Koordinate von h(a j ) bezüglich B ist, heißt die Abbildungsmatrix oder die Koordinatendarstellung von h bezüglich A und B. Beispiel.. Sei M K n m, V = K m, W = K n und sei h: V W, h(x) = Mx. Dann ist M die Abbildungsmatrix von h bezüglich der Standardbasis {e,..., e m } von V und der Standardbasis {e,..., e n } von W. 2. Sei V = Q[X] 3 = { a + a X + a 2 X 2 + a 3 X 3 : a, a, a 2, a 3 Q }, und sei W = Q( 2). Weiter sei h: V W, h(a +a X +a 2 X 2 +a 3 X 3 ) := a +a (+ 2)+a 2 (+ 2) 2 +a 3 (+ 2) 3. 4

115 Dann ist h eine lineare Abbildung. A = {, X, X 2, X 3 } ist eine Basis von V und B = {, 2} ist eine Basis von W. Die Abbildungsmatrix von h bezüglich A und B lautet M = ( ) Zum Beispiel erklärt sich die letzte Spalte aus ( + 2) 3 = Betrachte den Fall V = W, h = id mit zwei nicht notwendigerweise identische Basen B, B 2 V n. Dann hat die Abbildungsmatrix M von h bezüglich B und B 2 die Eigenschaft, dass sie Koordinatendarstellungen von v V bezüglich B in Koordinatendarstellungen bezüglich B 2 umwandelt. Man nennt M deshalb auch eine Basiswechselmatrix und schreibt T B B 2 := M. Im Fall V = K n, wo sich B und B 2 als invertierbare Matrizen auffassen lassen, und wo die Standardbasis (e,..., e n ) der Einheitsmatrix I n entspricht, gilt T In B2 = B 2, T B I n = B, T B B 2 = B 2 B, T B 2 B = B B2 = T B B 2. Außerdem gilt: ist B 3 eine dritte geordnete Basis von V, so ist T B B 3 = T B2 B 3 T B B 2. Satz 57. Seien V, W zwei endlich-dimensionale K-Vektorräume, h: V W linear und M K n m die Abbildungsmatrix von h bezüglich geordneter Basen A, B von V, W. Weiter seien π A : V K m und π B : W K n die Abbildungen, die jedem x V bzw. jedem y W die Koordinatendarstellungen dieser Vektoren bezüglich A bzw. B zuordnen. Dann gilt für alle x V. π B (h(x)) = Mπ A (x) π A V K m h M W K n π B Beweis. Da alle beteiligten Abbildungen linear sind, genügt es, die Aussage für die Elemente der Basis von V zu zeigen. Ist a j das j-te Element von A, so ist π A (a j ) = e j und also Mπ A (a j ) die j-te Spalte von M. Nach Definition 36 ist das genau die Koordinatendarstellung von h(a j ) bezüglich der gewählten Basis von W, also π B (h(a j )). Satz 58. Seien V, V 2, V 3 drei endlich-dimensionale K-Vektorräume mit geordneten Basen B, B 2, B 3, seien f : V V 2, g : V 2 V 3 lineare Abbildungen, und seien M f, M g die Abbildungsmatrix von f bezüglich B und B 2 bzw. von g bezüglich B 2 und B 3. Dann ist M g M f die Abbildungsmatrix von g f : V V 3 bezüglich B und B 3. 5

116 g f V f V 2 g V 3 v v 2 v 3 M f M g K m K k K n M g M f Beweis. Nach Satz 57 gilt v 2 (f(x)) = M f v (x) für alle x V, d. h. f(x) = v 2 (M f v (x)). Außerdem gilt v 3 (g(y)) = M g v 2 (y) für alle y V 2, und damit auch v 3 (g(f(x))) = M g v 2 (f(x)) = M g M f v (x) für alle x V. Da diese Gleichung dann insbesondere für die Basisvektoren von V gilt, folgt die Behauptung. Aus dem Satz folgt, dass man eine Abbildungsmatrix M bezüglich zweier geordneter Basen B, B 2 in eine Abbildungsmatrix M derselben Abbildung aber bezüglich zweier anderer geordneter Basen B, B 2 dadurch überführt, dass man sie mit den entsprechenden Basiswechselmatrizen multipliziert: M = T B2 B 2 MT B B. Noch spezieller: Wenn V = V 2, B = B 2 und B = B 2 ist, dann ist T B2 B 2 = T, d. h. die B B Basistransformation hat dann die einfache Form M = T MT für ein gewisses T GL(n, K). Es gilt dann det( M) = det(t MT ) = det(t ) det(m) det(t ) = det(m) det(t ) det(t ) = det(m). Das heißt, alle Abbildungsmatrizen einer linearen Abbildung h: V V mit der gleichen Basis auf beiden Seiten haben dieselbe Determinante. Der Wert der Determinante hängt also nur von der linearen Abbildung h ab und nicht von der gewählten Basis für V. Ähnliches gilt für den Rang einer Matrix. Das gestattet die folgenden Definitionen: Definition 37.. Sei h: V V linear, B eine beliebige geordnete Basis von V und M K n n die Abbildungsmatrix von h bezüglich B und B. Dann heißt det h := det M die Determinante von h. 2. Sei h: V W linear, A, B beliebige geordnete Basen von V, W, und sei M K n m die Abbildungsmatrix von h bezüglich A und B. Dann heißt Rang h := Rang M der Rang von h. 8 Der Dualraum 6

117 Definition 38.. Sind V und W zwei K-Vektorräume, so wird die Menge aller linearen Abbildungen h: V W mit Hom(V, W ) bezeichnet. 2. Im Spezialfall V = W schreibt man End(V ) := Hom(V, V ). Für die Menge aller Automorphismen schreibt man Aut(V ). 3. Im Spezialfall W = K schreibt man V := Hom(V, K) und nennt dies den Dualraum 4-8 von V. Die Elemente von V heißen Funktionale. Beachte: Hom(V, W ) bildet zusammen mit den Operationen einen Vektorraum über K. h + h 2 := ( x h (x) + h 2 (x) ), α h := ( x α h(x) ) in Hom(V, W ) V in W in Hom(V, W ) V in W Auch End(V ) ist ein Vektorraum. Die Menge Aut(V ) ist kein Vektorraum, aber zusammen mit der Komposition eine Gruppe. Beispiel. x. V = R 3, h: R 3 R, h( y ) = x + y z. Dann ist h V. z 2. V = Q[X], e: Q[X] Q definiert durch Dann ist e V. e(a + a X + + a n X n ) := a + 3a + 9a n a n. 3. Einige weitere Beispiele für lineare Abbildungen V K befinden sich in der Liste nach Definition 34. Satz 59. Sind V, W zwei endlich-dimensionale K-Vektorräume, dim V = m, dim W = n, dann ist Hom(V, W ) = K n m. Insbesondere gilt dim Hom(V, W ) = nm und V = K m = K m = V und dim V = dim V. Beweis. Wir konstruieren einen Isomorphismus h: K n m Hom(V, W ). Wähle dazu geordnete Basen A = (a,..., a m ) von V und B = (b,..., b n ) von W. Es sei h i,j : V W die nach Satz 5 eindeutig bestimmte lineare Abbildung mit h i,j (a j ) = b i und h i,j (a k ) = für alle k j. Es bezeichne e i,j K n m die Matrix, die an Stelle (i, j) eine Eins und ansonsten nur Nullen enthält. Dann ist { e i,j : i =,..., n, j =,..., m } eine Basis von K n m. Es sei schließlich h: K n m Hom(V, W ) die nach Satz 5 eindeutig bestimmte lineare Abbildung, die e i,j auf h i,j abbildet, für i =,..., m und j =,..., n. 7

118 Diese Abbildung ist bijektiv: Die Umkehrabbildung h : Hom(V, W ) K n m ist die Funktion, die jedem u Hom(V, W ) dessen Abbildungsmatrix bezüglich A und B zuordnet. Für V = K m folgt aus dem Satz, dass jedes Element von V von der Form ist x x : V K, x (. ) = α x + + α m x m = (α,..., α m ) x m für gewisse Konstanten α,..., α m K. Die ( abstrakten ) Vektoren x V lassen sich also auch durch ( konkrete ) Vektoren (α,..., α m ) K m = V beschreiben. Die Abbildung (α,..., α m )x ) ist ein Isomorphismus. V V, (α,..., α m ) ( x }{{} V V } {{ } V Im Fall dim V = sind V und V nicht unbedingt isomorph. Zum Beispiel kann man zeigen, dass K[[X]] = K[X] = K[[X]]. Satz 6. Ist B = {b,..., b m } eine Basis von V, so bildet die Menge B = {b,..., b m} V mit { b falls i = j i (b j ) = sonst eine Basis von V. (Man nennt B die zu B duale Basis.) Beweis. (a) B ist linear unabhängig: Seien α,..., α n K mit α b + + α n b n =. Das bedeutet α b (x) + + α nb n(x) = für alle x V. Für beliebiges i {,..., n} gilt daher insbesondere = (α b + + α n b n)(b i ) = α b (b i ) + + α n b n(b i ) = α i. (b) B ist ein Erzeugendensystem: Sei x V beliebig. Sei α i := x (b i ) für i =,..., n. Für die lineare Abbildung y := α b + + α nb n gilt ebenfalls α i = y (b i ) für i =,..., n. Da nach Satz 5 eine lineare Abbildung eindeutig durch die Bilder auf den Basiselementen bestimmt ist, folgt x = y. Und da x beliebig war und y eine Linearkombination von b,..., b n ist, folgt, dass B ein Erzeugendensystem von V ist. Definition 39. Seien V, W zwei K-Vektorräume, h Hom(V, W ). Dann wird die Abbildung h Hom(W, V ) definiert durch h (y ) := ( x y (h(x)) ) für alle y W. 2 Beispiel. V = R 2, W = R 3, h(x) = 3 4 x. Dann ist h : W V die Abbildung, die 5 6 eine Abbildung y y : W K, y ( y 2 ) = (β, β 2, β 3 ) y 2 y 3 y 3 8 y x. x m

119 in die Abbildung überführt. h (y ): V K, h (y )( ( x x 2 ) 2 ( ) ) = (β, β 2, β 3 ) 3 4 x x = (β + 3β 2 + 5β 3 )x + (2β + 4β 2 + 6β 3 )x 2 Einfacher lässt es sich ausdrücken, wenn man die Elemente der Dualräume durch die entsprechenden Vektoren in V bzw W ausdrückt. Dann ist nämlich einfach β ( ) h ( 3 5 β 2 ) = β β β 3 β 3 Wie man sieht, ist die Abbildungsmatrix von h gerade die Transponierte der Abbildungsmatrix von h. Das ist natürlich kein Zufall: Satz 6. Seien V, W zwei K-Vektorräume.. Die Abbildung : Hom(V, W ) Hom(W, V ), h h ist linear. 2. Seien V, W beide endlich-dimensional und seien A, B geordnete Basen von V bzw. W. Weiter seien A und B die dualen Basen von A und B. Dann gilt: Ist M K n m die Abbildungsmatrix von h Hom(V, W ) bezüglich A und B, so ist M K m n die Abbildungsmatrix von h bezüglich B und A. Beweis.. Übung. 2. Sei M die Abbildungsmatrix von h bezüglich B und A. Schreibe A = {a,..., a m }, B = {b,..., b n }, A = {a,..., a m}, B = {b,..., b n}. An Position (i, j) von M steht die i-te Koordinate von h (b j ) bezüglich A. Zu zeigen: diese ist identisch mit der j-ten Koordinate von h(a i ) bezüglich B. Aufgrund der Definiton der Dualbasis ist die i-te Koordinate eines Funktionals x V gerade x (a i ), und b j (y) ist die j-te Koordinate von y W. Daher: wie behauptet. i-te Koordiante von h (b j) bezüglich A = h (b j)(a i ) = b j(h(a i )) = j-te Koordinate von h(a i ) bezüglich B, Der Satz ist eine Verallgemeinerung der Matrixtransposition auf Homomorphismen zwischen beliebigen Vektorräumen. Es bietet sich deshalb an dieser Stelle an, auch die Begriffe Ko-Kern und Ko-Bild für beliebige Homomorphismen zu definieren. Für h: V W war ja bereits definiert ker h = {x V : h(x) = } und im h = {h(x) : x V }. Darüber hinaus definieren wir jetzt coker h = {x W : h (x) = } und coim h = {h (x) : x W }. Man beachte, dass coker h ein Unterraum von W und coim h ein Unterraum von V ist. 9

120 Satz 62. Sei V ein K-Vektorraum und V := (V ) der Dualraum des Dualraums von V (V ist der sogenannte Bidualraum von V ). Die Abbildung h: V V, h(x) = ( f f(x) ) ist linear und injektiv, und im Fall dim V < auch bijektiv. Beweis. Linearität: Für alle α, β K und alle x, y V gilt: Injektivität: Für alle x, y V gilt h(αx + βy) = ( f f(αx + βy) ) = ( f αf(x) + βf(y) ) = α( f f(x) ) + β( f f(y) ) = αh(x) + βh(y). h(x) = h(y) h(x y) = ( f f(x y) ) = f V : f(x y) = x = y. Bijektivität im Fall dim V < folgt aus Satz 52 und dim V = dim V = dim V. 2

121 Teil IV Anwendungen 2

122 9 Affine und Projektive Geometrie Definition 4. Sei U K n ein Untervektorraum und x K n. Dann heißt x + U := { x + u : u U } K n ein affiner Unterraum (engl. affine subspace) von K n. Im Fall dim U = / / 2 / n spricht man von einem Punkt / einer Geraden / einer Ebene / einer Hyperebene. (engl: point, line, plane, hyper plane) Beispiel. ( ) ( ). G = { + λ : λ R } = ( ) ( ) in Richtung. ( ) + ( ) R 2 ist die Gerade durch den Punkt (, ) (, ) ( ) ( ) G = + R 2 ist eine andere Schreibeweise für dieselbe Gerade. 2. E = 2 +, 4 ist eine Ebene. Um sich die Lage der Ebene im dreidimensionalen Raum zu veranschaulichen, kann man die Schnittgeraden mit den drei 3 3 Koordinatenebenen bestimmen: 2 4 E, = 6 + }{{} (x, y)-ebene 3 5 E, = + 5 }{{} (x, z)-ebene E, = }{{} (y, z)-ebene 22

123 y x Den Schnitt zweier affiner Unterräume kann man berechnen, indem man ein inhomogenes lineares Gleichungssystem löst. Zum Beispiel bekommt man die erste Schnittgerade, indem man alle α, β, λ, µ bestimmt, für die gilt: 2 + α + β z = λ + µ. Die Schnittgerade mit einer Koordinatenebene kann man auch einfacher ausrechnen. Dazu nutzt man aus, dass z. B. die (x, y)-ebene gerade die Menge aller Punkte (x, y, z) R 3 mit der Eigenschaft z = ist. Der Schnitt dieser Ebene mit E ist also auch die Menge aller Punkte aus E, deren letzte Koordinate ist. Um diese Punkte zu finden, braucht man nur das inhomogene Gleichungssystem zu lösen. 3 + α + β ( 3) = Satz 63. Der Schnitt zweier affiner Unterräume von K n ist entweder die leere Menge oder wieder ein affiner Unterraum von K n. Beweis. Seien x + U und x 2 + U 2 zwei affine Unterräume von K n. Falls deren Schnitt leer ist, ist nichts zu zeigen. Anderenfalls gibt es ein x K n mit x (x + U ) (x 2 + U 2 ), etwa x = x + u = x 2 + u 2 für gewisse u U und u 2 U 2. Wir zeigen, dass dann (x + U ) (x 2 + U 2 ) = x + (U U 2 ) gilt. Sei z (x + U ) (x 2 + U 2 ). Zu zeigen: z x + (U U 2 ), d. h. x z U U 2. Nach Voraussetzung gilt z x + U und z x 2 + U 2, also z = x + ũ = x 2 + ũ 2 für gewisse ũ U und ũ 2 U 2. Also gilt { u ũ z x = U u 2 ũ 2 U 2 und damit z x U U 2. Sei z x + (U U 2 ). Zu zeigen: z x + U und z x 2 + U 2. Aus Symmetriegründen genügt es, z x + U zu zeigen. Nach Voraussetzung gilt z x = x + u + (U U 2 ) x }{{} + u + U }{{} U =U. 23

124 Definition 4. Zwei affine Unterräume x +U, x 2 +U 2 von K n heißen (zueinander) parallel, falls U U 2 oder U 2 U ist. x 2 + U 2 x + U x + U x 2 + U 2 Zwei Geraden im Raum K 2, die sich nicht schneiden, sind stets zueinander parallel. (Beweis: Übung.) Zwei Geraden im Raum K 3 können sich jedoch auch dann verfehlen, wenn sie nicht parallel sind. Beispiel. Betrachte die beiden Geraden G = 2 +, G 2 = Der Schnitt G G 2 ist leer, weil das inhomogene Gleichungssystem α = 5 + β keine Lösung hat. Trotzdem sind diese Geraden nicht parallel, weil und 5 linear 5 unabhängig sind. G G 2 Zwei Ebenen im K 3 sind entweder zueinander parallel oder sie schneiden sich in einer Gerade. Zwei Ebenen im K 4 können als Schnittmenge eine Gerade, einen einzelnen Punkt, oder die leere Menge haben, und zwar auch dann, wenn sie nicht parallel sind. 24

125 Beispiel. Für die beiden Ebenen E = 2 3 +, 4, E 2 = , gilt 5 E E 2 = { 5 }. Definition 42. Für v, w K n+ \ {} sei definiert v w : λ K \ {} : v = λw. Dann heißt P n := (K n+ \ {})/ der projektive Raum der Dimension n über K. Statt [(x,..., x n )] schreibt man (x : : x n ) und spricht von projektiven Koordinaten. Anschauung: Das Auge eines Betrachters am Ursprung (,..., ) des Raums K n+ kann zwei Punkte v, w K n+ nicht voneinander unterscheiden, wenn v w gilt, d. h. wenn diese Punkte auf derselben Geraden durch den Ursprung liegen. Mit Ausnahme der Geraden auf der Grundfäche x n+ = schneiden alle diese Geraden den affinen Unterraum K n {} K n+ in genau einem Punkt. Dieser Punkt bietet sich als kanonischer Repräsentant der jeweiligen Äquivalenzklassen an. Man kann sich den affinen Unterraum K n {} geometrisch als Projektionsfläche vorstellen. Betrachtet man ein geometrisches Objekt im K n+ als ein Objekt in P n, so geht ein Teil der Information über Lage und Form des Objekts verloren. Was an Information übrig bleibt, entspricht genau dem Bild der Projektion auf der Projektionsfläche. y v w π(v) = π(w) y = x 25

126 z y x Die Projektion bildet den Punkt (x : : x n ) P n mit x n auf den Punkt ( x x n,..., xn x n ) K n ab. Die restlichen Punkte (x : : x n : ) P n bilden zusammengenommen eine Kopie von P n. Diese Punkte kann man sich anschaulich als Punkte vorstellen, die unendlich weit vom Ursprung entfernt liegen. Im Fall n = entsprechen die Punkte (x : x ) mit x = genau den Punkten auf der x -Achse, die die zu ihr parallel verlaufende Projektionsgerade x = in einem gedachten unendlich fernen Punkt ( : ) P schneidet. Es gilt also P = K P. Im Fall n = 2 verlaufen die Grundebene { (x, x, x 2 ) : x 2 = } und die Projektionsebene { (x, x, x 2 ) : x 2 = } zueinander parallel. Sie schneiden sich in einer gedachten Gerade, die aus lauter unendlich fernen Punkten besteht, je einen für jede Richtung (x : x ). Es gilt also P 2 = K 2 P. Durch die Hinzunahme von unendlich fernen Punkte lassen sich die lästigen Fallunterscheidungen, die beim Rechnen mit affinen Räumen auftreten, vermeiden. Statt der inhomogenen Gleichungssysteme x + α v + + α m v m =, die da auftreten, hat man es im projektiven Raum nur mit homogenen Gleichungsystemen zu tun. λx + α v + + α m v m = In der Computergraphik wird grundsätzlich mit projektiven Koordinaten gearbeitet. Objekte in einem dreidimensionalen virtuellen Raum werden dargestellt durch Punkte im projektiven Raum P 3. Positionsänderungen der Objekte lassen sich durch die Anwendung geeigneter 4 4-Matrizen ausdrücken. Für eine Matrix A K (n+) (n+) und einen Punkt [x] P n mit x K n+ \ {} definiert man A[x] := [Ax]. Eine solche Definition ist zulässig, weil das Ergebnis wegen x = Ax λ : λx = A(λx) nicht von der Wahl des Repräsentanten abhängt. So kann man zum Beispiel im projektiven Raum auch die Verschiebung eines Punktes (x : x : x 2 : 26

127 x 3 ) P 3 um den Vektor (y, y, y 2 ) K 3 als eine lineare Abbildung schreiben: x y x x x = y 2 x 2 y 3 x 2. x 3 x 3 Im Raum K 3 ist die Verschiebung um (y, y 2, y 3 ) dagegen keine lineare Abbildung. Zur Darstellung der dreidimensionalen virtuellen Realiät auf einem zweidimensionalen Bildschirm betrachtet man die Bildschirmoberfläche als projektiven Raum P 2 und verwendet eine Matrix A K 3 4, um die Punkte in P 3 auf Punkte im P 2 abzubilden. Die Einträge von A codieren Lage, Blickrichtung, Drehwinkel und Brennweite (Zoom) der virtuellen Kamera. Wie das genau funktioniert, erfahren Sie in den einschlägigen Lehrveranstaltungen des Instituts für Angewandte Geometrie von Prof. Jüttler. 2 Farbräume Das Spektrum des sichtbaren Lichts umfasst die elektromagnetische Strahlung mit Wellenlängen von ca. 4nm (violett) bis ca. 7nm (rot). Jede Wellenlänge entspricht einer bestimmten (Spektral-)Farbe, und jeder andere Farbeindruck einspricht einer bestimmten Überlagerung solcher Spektralfarben. Weisses Licht ergibt sich zum Beispiel aus der gleichmäßigen Mischung von Licht in allen Farben des Spektrums. In der Sprache der linearen Algebra kann man die Farben als einen Vektorraum auffassen, der von den Spektralfarben erzeugt wird. Jede Wellenlänge entspricht dann einem anderen Basisvektor, und jede Farbe ist eine Linearkombination, deren Koeffizienten angeben, wie stark der Lichtanteil der entsprechenden Spektralfarbe ist. Wenn jede Wellenlänge einem Basisvektor entsprechen soll, dann ist der Farbraum offenbar unendlich dimensional. Das mag aus physikalischer Sicht auch eine adäquate Beschreibung der Natur des Lichts sein, aber für praktische Anwendungen sind so viele Dimensionen weder nützlich noch nötig. Das menschliche Auge kann so viele Farben gar nicht unterscheiden. Auf der Netzhaut des Auges gibt es vier verschiedene Arten von lichtempfindliche Zellen, von denen drei für das farbige Sehen zuständig sind. Jede dieser drei Zellarten reagiert auf Licht mit einer bestimmten Wellenlänge λ besonders stark, und auf Licht mit anderen Wellenlängen umso schwächer, je stärker die andere Wellenlänge von λ abweicht. Empfindlichkeit Wellenlänge (nm) Der Farbeindruck, den wir subjektiv wahrnehmen, ergibt sich daraus, wie stark die drei verschiedenen Zelltypen vom eintreffenden Licht angeregt werden. Das Auge codiert also jede Farbe als einen Vektor (x, y, z), in dem die Koordinaten angeben, wie stark jeder der drei Zelltypen von der Farbe angeregt wird. Vereinfachend kann man sich vorstellen, dass die Koordinaten zwischen (gar keine Anregung) und (maximale Anregung) liegen. Die Basis in diesem Modell bilden die drei Grundfarben rot, grün und blau, für die jeweils einer der drei Zelltypen auf der Netzhaut maximal angeregt wird. Das Mischen von Farben entspricht der 27

128 Linearkombination von Vektoren. Wenn man dabei nichtnegative Koeffizienten wa hlt, die sich zu (ho chstens) aufaddieren, dann ist gewa hrleistet, dass der Ergebnisvektor wieder Koordinaten hat, die zwischen und liegen und damit einen gu ltigen Farbvektor darstellen. Solche Linearkombinationen α a + + αm am mit α,..., αm und α + + αm = nennt man auch Konvexkombinationen. Beispiele: (,, ) =, (,, ) =, (,, ) =, (,, ) =, (,, ) =, (,, ) =, (,, ) =, (,, ) =,, ( 2,, ) 4, ). ( 3,, 23 ) = = ( 2, 2, 2 ), =, (, = Ausgabegera te wie zum Beispiel Monitore erzeugen Farben, indem sie rotes, gru nes und blaues Licht in genau dem Mischungsverha ltnis ausstrahlen, das im Auge des Betrachters den gewu nschten Farbeindruck hervorruft. Ein Bild kann man als eine Funktion auffassen, die jedem Punkt der Ebene eine Farbe zuordnet. Farbige Bilder werden im Computer als U berlagerung dreier einfarbiger Bilder dargestellt, die den Anteil der drei Basisfarben am Gesamtbild angeben. Typischerweise verwendet man dabei rot, gru n und blau (RGB) als Basisfarben: = + + Abha ngig von der Anwendungssituation kann es von Vorteil sein, verschiedene Basen zu verwenden. Es kann zum Beispiel sein, dass es fu r die drei Basislichtquellen in einem Monitor technisch leichter ist, statt R, G und B drei andere Farben A, B und C zu verwenden. Die Farbinformation, die der Computer in der RGB-Basis an den Monitor leitet, muss dann vom Monitor in die ABC-Basis umgewandelt werden. Die Basistransformation geschieht natu rlich durch Multiplikation des RGB-Vektors mit der 3 3-Matrix, deren Zeilen die Koordinatendarstellung der Farben in der RGB-Basis sind. Personen, die an Rot-Gru n-blindheit leiden, haben auf ihrer Netzhaut nur zwei verschiedene Typen von farbempfindlichen Zellen. Fu r diese Personen ist der Farbraum deshalb nur zweidimensional, und es ergibt sich in etwa der folgende Eindruck: = + Wenn Betroffene jetzt einwenden, dass fu r sie die Abbildung auf der linken Seite der Gleichung nicht identisch aussieht wie die Abbildung auf der linken Seite der dreidimensionalen Zerlegung, dann liegt 28

129 das daran, dass die Wellenla ngen, bei denen die Farbrezeptoren im Auge maximal angeregt werden, von Mensch zu Mensch leicht verschieden sind. Den exakt gleichen Eindruck bekommt man nur dann, wenn man in der Rechnung ein rot und ein blau verwendet, die gemeisam den gleichen Untervektorraum aufspannen wie das rot und das blau, die die Zellen im Auge der betreffenden Person wahrnehmen. Daru ber hinaus mu sste sichergestellt sein, dass das verwendete Grafikprogram sowie der Drucker bzw. der Bildschirm exakt die gleichen Farbto ne als Basisfunktion verwenden, was technisch nur sehr schwer umzusetzen ist. Die Skalierung eines Farbvektors a ndert die Helligkeit: v = v ist die Farbe v selbst, v = ist 3-3 schwarz, und z.b. 2 v ist eine dunklere Variante der Farbe v. Die Zahen α [, ] kann man deshalb auch als Graustufen interpretieren (mit schwarz als und weiß als ). = + + = Wenn Sie dieses Skriptum auf einem Schwarz-Weiss-Drucker ausgedruckt haben, dann hat Ihr Computer die Farben in den Abbildungen dieses Abschnitts in Grauto ne umwandeln mu ssen. Ein Grauton ist eine reelle Zahl zwischen (schwarz) und (weiss). Um ein Farbbild in ein Graustufenbild umzuwandeln, wa hlt man Grauwerte gr, gg, gb [, ], auf die die Basisfarben R, G, B abgebildet werden sollen. Eine beliebige Farbe (cr, cg, cb ) des RGB-Raums wird dann abgebildet auf den Grauwert cr (gr, gg, gb ) cg. cb Die Abbildung, die jeder RGB-Farbe einen Grauwert zuordnet, ist also ein Funktional. Umgekehrt: Vo gel werden die Bilder, die auf unseren Monitoren angezeigt werden, vermutlich nicht besonders realistisch finden. Sie verfu gen na mlich u ber eine Netzhaut mit vier verschiedenen Typen von Farbrezeptoren und genießen daher einen vierdimensionalen Farbraum. Sie ko nnen deshalb viele Farben voneinander unterscheiden, die fu r uns identisch sind. 2 Graphentheorie Definition 43. Sei V eine Menge und E eine Relation auf V. Dann heißt das Paar G = (V, E) ein Graph. Die Elemente von V heißen Knoten (engl. vertex ) und die Elemente von E heißen Kanten (engl. edge) des Graphen. Eine Kante der Form (v, v) heißt Schleife (engl. loop). Ein Graph in diesem Sinne hat nichts mit Funktionsgraphen zu tun. Es handelt sich viel mehr um eine Art Netzwerk, wie wir bereits im Abschnitt 2 als Beispiel fu r eine Relation gesehen haben. Graphen 29

130 kann man sich graphisch veranschaulichen, indem man für die Knoten irgendwelche Punkte in der Ebene wählt und je zwei Punkte v, v 2 V genau dann durch einen Pfeil von v nach v 2 verbindet, wenn (v, v 2 ) E ist. Um einen Graphen im Computer zu speichern, kann man einfach eine Liste mit den Elementen von V sowie eine Liste mit den Elementen von E speichern. Für manche Anwendungen ist es zweckmäßiger, die Kantenmenge E durch eine Matrix darzustellen, deren Einträge für je zwei Knoten v, v 2 angeben, ob es eine Kante von v nach v 2 gibt oder nicht. Definition 44. Es sei G = (V, E) ein Graph mit V = n <. Weiter sei v : {,..., n} V eine bijektive Funktion. Die Adjazenzmatrix von G (bezüglich v) ist definiert als die Matrix A = ((a i,j )) n i,j= Qn n mit für i, j =,..., n. { falls (v(i), v(j)) E a i,j = sonst Die Funktion v in der obigen Definition bedeutet bloß, dass die Knoten in einer beliebigen aber bestimmten Weise angeordnet werden sollen. Welche Reihenfolge gewählt wird, ist egal, aber für zwei verschiedene Wahlen von v erhält man im allgemeinen verschiedene Adjazenzmatrizen. Beispiel. Im folgenden ist für die Adjazenzmatrix A immer angenommen, dass v die Knoten in der Reihenfolge durchnumeriert, in der sie notiert sind.. G = (V, E ) mit V = {a, b, c, d, e}, E = {(a, b), (b, c), (c, d), (d, e), (e, a)} e d a c b A = 2. G 2 = (V 2, E 2 ) mit V 2 = {a, b, c, d, e}, E 2 = {(a, b), (a, d), (c, c), (c, b), (e, b), (d, a), (b, d)} a d b c e A 2 = 3. G 3 = (V 3, E 3 ) mit V 3 = {a, b, c, d}, E 3 = {(a, b), (a, c), (a, d), (c, b), (d, c)} 3

131 a c b d A 3 = 4. G 4 = (V 4, E 4 ) mit V 4 = {a, b, c, d}, E 4 = {(a, c), (b, a), (b, c), (b, d), (d, a)} a b c d A 4 = Definition 45. Seien G = (V, E) und G = (V, E ) zwei Graphen. Eine Funktion h: V V mit v, v 2 V : (v, v 2 ) E (h(v ), h(v 2 )) E heißt (Graphen-)Homomorphismus von G nach G. Ist h bijektiv, spricht man von einem (Graphen-)Isomorphismus und sagt, die Graphen G und G seien (zueinander) isomorph. Schreibweise in diesem Fall: G = G. Beispiel. Von den vier Graphen im vorigen Beispiel sind nur der dritte und der vierte zueinander isomorph. Die Abbildung h: V 3 V 4, die durch folgende Wertetabelle definiert ist, ist ein Isomorphismus. v a b c d h(v) b c a d Um das zu zeigen, rechnet man nach, dass die Mengen E 4 und identisch sind. (Sie sind es.) h(e 3 ) := { (h(v), h(w)) : (v, w) E 3 } V 2 4 Dass G und G 2 nicht isomorph sein können, sieht man zum Beispiel daran, dass der zweite Graph eine Schleife hat und der erste nicht. Ein Isomorphismus muss aber Schleifen (v, v) auf Schleifen (h(v), h(v)) abbilden. Außerdem kann weder G noch G 2 isomorph zu G 3 oder G 4 sein, weil ein Isomorphismus bijektiv sein muss und Graphen deshalb nur dann isomorph sein können, wenn sie die gleiche Anzahl von Knoten haben. Anfänger glauben oft, dass zwei Graphen G und G 2 isomorph sind, wenn für jedes n N die Zahl der Knoten in G, die mit genau n Knoten durch eine Kante verbunden sind, mit der Zahl der Knoten in G 2, die mit genau n durch eine Kante verbunden sind, übereinstimmt. Das ist aber falsch. Tatsächlich handelt es sich hierbei nur um eine notwendige Bedingung, aber nicht um eine hinreichende. 3

132 Satz 64. Seien G = (V, E) und G = (V, E ) zwei Graphen mit endlichen Kantenmengen V, V. Sei A eine Adjazenzmatrix von G und A eine Adjazenzmatrix von G. Dann gilt: G und G sind genau dann isomorph, wenn V = V gilt und es eine Permutationsmatrix P Q V V gibt mit A = P AP. Beweis. Seien v : {,..., V } V und v : {,..., V } V die zu den gegebenen Adjazenzmatrizen A und A gehörenden Bijektionen. Sei h: V V ein Isomorphismus. Da h als Isomorphismus insbesondere bijektiv ist, ist π := (v ) h v eine Bijektion von {,..., V } nach {,..., V }. Damit gilt V = V und somit ist π eine Permutation. Sei P Q V V die zu π gehörende Permutationsmatrix. Wir zeigen A = P AP. Betrachte dazu eine beliebige Position (i, j) {,..., V } 2. Bezeichnen wir mit a i,j und a i,j den Eintrag von A bzw. A an Position (i, j), so gilt a i,j = (v(i), v(j)) E (h(v(i)), h(v(j))) E a (v ) (h(v(i))),(v ) (h(v(j))) = a π(i),π(j) =. Damit folgt die Behauptung aus Teil 3 von Satz 9. Sei π : {,..., V } {,..., V } die zu P gehörige Permutation. Wir zeigen, dass h: V V, h = v π v ein Isomorphismus ist. Bezeichnen wir mit a i,j und a i,j wieder den Eintrag von A bzw. A an Position (i, j), so gilt nach Teil 3 von Satz 9 a i,j = a π(i),π(j) =. Für zwei beliebige Knoten u, w V gilt dann was zu zeigen war. (u, w) E a v (u),v (w) = a π(v (u)),π(v (w)) = a (v ) (h(u)),(v ) (h(w)) = (h(u), h(w)) E, Beispiel. Betrachten wir noch einmal die Graphen G 3 und G 4 aus dem Beispiel nach Definition 44. Die dort angegebenen Adjazenzmatrizen A 3 = und A 4 = gelten beide bezüglich der Funktion v : {, 2, 3, 4} {a, b, c, d} mit v() = a, v(2) = b, v(3) = c, v(4) = d. Ist h: {a, b, c, d} {a, b, c, d} der Isomorphismus aus dem vorigen Beispiel, so ist die Permutation π = v h v gegeben durch i π(i)

133 Die zugehörige Permutationsmatrix lautet In der Tat gilt P π =. Pπ A 3 P π = = = A 4. Definition 46. Sei G = (V, E) ein Graph. Ein Tupel ((v, v ), (v 2, v 3 ),..., (v m, v m )) E m heißt Pfad (engl. path) von v V nach v m V von G der Länge m. Statt ((v, v ), (v, v 2 ),..., (v m, v m )) schreibt man einen Pfad auch in der Form v v v m. Ein Pfad mit v = v m heißt geschlossener Pfad oder Zyklus (engl. cycle) von G (der Länge m). Beispiel.. Die Pfade der Länge entsprechen genau den Kanten des Graphen, und die Zyklen der Länge entsprechen genau seinen Schleifen. 2. Der Graph G 2 auf Seite 3 enthält den Pfad c c b d a b d a d a. Dieser Pfad hat die Länge 9. Der Pfad ist kein Zyklus, aber z. B. die Pfade a b d a und a d a sind Zyklen von G 2. Der Graph G 3 enthält dagegen keine Zyklen. Satz 65. Sei G = (V, E) ein Graph mit endlicher Knotenmenge, v : {,..., V } V bijektiv und A die Adjazenzmatrix von G bezüglich v. Weiter seien i, j {,..., V }.. Der (i, j)-te Eintrag in der Matrix A n ist genau die Anzahl der Pfade von v(i) nach v(j) der Länge n. 2. Der (i, j)-te Eintrag in der Matrix A + A A n ist genau die Anzahl der Pfade von v(i) nach v(j) der Länge höchstes n. 3. Ein Pfad von v(i) nach v(j) existiert genau dann, wenn ein Pfad von v(i) nach v(j) der Länge höchstens V existiert. 33

134 Beweis.. Induktion nach n. Für n = folgt die Behauptung direkt aus Def. 44. Nehmen wir an, die Behauptung gilt für n. Sei (i, j) {,..., V } 2. Zu zeigen ist, dass der (i, j)-te Eintrag von A n+ die Anzahl der Pfade von v(i) nach v(j) der Länge n+ ist. Jeder solche Pfad lässt sich auffassen als ein Pfad von v(i) nach v(k) für ein k {,..., n} gefolgt von der Kante (v(k), v(j)), falls diese existiert. Die Anzahl der Pfade von v(i) nach v(k) ist nach Voraussetzung der (i, k)-te Eintrag a [n] i,k von An, und die Kante (v(k), v(j)) existiert nach Def. 44 genau dann, wenn a k,j = ist. Da a k,j im anderen Fall ist, lässt sich die Anzahl der Pfade von v(i) nach v(j) der Länge n + schreiben als a [n] i, a,j + a [n] i,2 a 2,j + + a [n] i, V a V,j. Nach Definition der Matrizenmultiplikation ist dies genau der (i, j)-te Eintrag von A n A = A n+. 2. Folgt direkt aus Teil. 3. Wir zeigen: aus jedem Pfad von u nach v der Länge m > V lässt sich ein Pfad von u nach v mit einer Länge < m konstruieren. Sei also P ein Pfad von u nach v der Länge m > V. Dann muss es in P mindestens einen Knoten w geben, der mehr als einmal besucht wird. Das heißt, wenn etwa P = v v v m mit v = u und v m = v ist, dann muss es ein Paar (i, j) mit i < j geben, so dass v i = v j = w ist. In diesem Fall ist P := v v i v i v j+ v j+2 v m ein Pfad von u nach v der Länge m (j i) < m. Beachte, dass (v i, v j+ ) = (v j, v j+ ) eine Kante von G ist, weil sie bereits im ursprünglichen Pfad P vorkommt. Beispiel.. Betrachten wir noch einmal den Graphen G 2 von Seite 3. Für n = 7 erhalten wir A = Der Eintrag 6 an Position (3, 4) sagt aus, dass es genau 6 Möglichkeiten gibt, in genau sieben Schritten von c nach d zu gelangen. In der Tat sind das die folgenden Pfade: c b d a b d a d, c b d a b a b d, c c c b d a b d, c c c c b d a d, c c c c c c a d. 34

135 2. Für den Graphen G 3 auf Seite 3 gilt A 4 3 =. Es gibt in diesem Graphen also keine Pfade der Länge 4. Längere Pfade kann es dann natürlich auch nicht geben. Die Gesamtzahl sämtlicher Pfade (beliebiger Länge) von einem Knoten zu einem anderen ist deshalb gegeben durch 3 2 A 3 + A A 3 3 =. Man kann sich überlegen, dass ein Graph G = (V, E) mit Adjazenzmatrix A genau dann einen Zyklus enthält wenn A V ist. 3. Statt der Anzahl der Pfade von u nach v kann man sich auch fragen, wie lang der kürzeste Pfad von u nach v ist. Man nennt die Länge eines kürzesten Pfades von u nach v die Distanz von u nach v, Schreibweise: d(u, v). (Beachte: im allgemeinen gilt d(u, v) d(v, u).) Wenn es gar keinen Pfad von u nach v gibt, setzt man d(u, v) =. Wir wollen für alle Knotenpaare u, v die Distanz d(u, v) bestimmen. Dazu ist es hilfreich, eine Hilfsgröße { d(u, v) falls d(u, v) m d m (u, v) = sonst einzuführen. Dann bedeutet d m (u, v) =, dass d(u, v) > m ist, und d m (u, v) = k N, dass d(u, v) = k ist. Nach Teil 3 von Satz 65 gilt für je zwei Knoten u, v eines Graphen G = (V, E) stets d(u, v) V oder d(u, v) =. Es genügt also, d V (u, v) zu berechnen. Ist V = {v,..., v n }, so gilt offenbar d m +m 2 (u, v) = min ( d m (u, v ) + d m2 (v, v),..., d m (u, v n ) + d m2 (v n, v) ), denn wenn man auf einem kürzesten Pfad P von u nach v nach m Schritten an einem Knoten v i anhält, dann kann es nicht sein, dass es von u nach v i einen Pfad mit weniger als m Schritten gibt, sonst ließe sich daraus ein Pfad von u nach v konstruieren, der noch kürzer ist als P. (Wir nehmen hier an, dass min und + auf N { } so definiert sind, dass min(, ) =, min(k, ) = k und k + = + k = + = für alle k N gilt.) Die obige Formel für d m +m 2 (u, v) hat die gleiche Struktur wie die Formel für die Koeffizienten eines Matrixprodukts, wenn man + und durch min und + ersetzt. Man kann also eine Entfernungstabelle für einen Graphen G wie folgt berechnen. Wähle v : {,..., V } V und setze D = (( d (v(i), v(j)) )) n i,j=. Beachte dabei, dass falls i = j d (v(i), v(j)) = falls i j und (v(i), v(j)) E sonst V + für alle i, j gilt. Berechne die Matrix-Potenz D := D, wobei min und + statt + und verwendet werden. Der (i, j)-te Eintrag von D ist dann genau d(v(i), v(j)). Beispiel: Für den Graphen 35

136 a b h g c d f e erhält man die folgende Entfernungstabelle: a b c d e f g h a b c d e f g h C-finite Folgen Definition 47.. Eine Funktion a: N K heißt Folge (engl. sequence) in K. Statt a schreibt man auch (a n ) n=. 2. Eine Folge a heißt C-finit, falls es einen Vektor (c,..., c r ) K r+ \ {} gibt, so dass für alle n N gilt c a(n) + c a(n + ) + + c r a(n + r) =. Beispiel.. Die Folge (F n ) n= der Fibonacci-Zahlen ist C-finit. Sie erfüllt die Rekurrenz F n + F n+ F n+2 = für alle n N. 2. Die Folge a: N Q mit a(n) = n 2 ist C-finit. Eine Rekurrenz lautet a(n) 3a(n + ) + 3a(n + 2) a(n + 3) =. 36

137 3. Die Folge a: N Q mit a(n) = n! ist nicht C-finit. Um das zu zeigen, muss man zeigen, dass sie keine lineare Rekurrenz mit konstanten Koeffizienten erfüllt, egal wie groß die Ordnung r gewählt wird. Anders ausgedrückt ist zu zeigen, dass die Folgen (n!) n=, ((n + )!) n=,..., ((n + r)!) n= aufgefasst als Elemente des Vektorraums QN linear unabhängig über Q sind. Dazu betrachte man Konstanten c,..., c r Q mit c n! + c (n + )! + + c r (n + r)! = für alle n N. Es ist zu zeigen, dass all diese Konstanten Null sein müssen. Wäre das nicht so, dann gäbe es zumindest ein i mit c i. O.B.d.A. können wir i = r annehmen. Division durch (n + r)! liefert die Gleichung c (n + ) (n + r) + c (n + 2) (n + r) + + c r n + r + c r = für alle n N. Auf der linken Seite steht nun eine Linearkombination von rationalen Ausdrücken. Aus der Analysis ist bekannt, dass lim n p(n) = ist für jedes Polynom p mit deg p >. Der Grenzwert der linken Seite für n ist deshalb c r. Der Grenzwert der rechten Seite ist aber. Also muss c r = sein, im Widerspruch zur Annahme. Satz 66. Sei (c,..., c r ) K r+ mit c r. Dann gilt:. U := { (a n ) n= KN : n N : c a n + + c r a n+r = } ist ein Untervektorraum von K N. 2. Die Abbildung h: U K r, h(a, a,... ) := (a,..., a r ) ist ein Isomorphismus. Beweis.. Zu zeigen: U und für alle u, v U und alle α, β K gilt αu + βv U. Dass in U liegt, folgt aus c + c + + c r =. Sind u, v U, so gilt c u(n) + c u(n + ) + + c r u(n + r) =, c v(n) + c v(n + ) + + c r v(n + r) = für alle n N. Multiplikation der ersten Gleichung mit α K und der zweiten mit β K, und Addition der beiden resultierenden Gleichungen liefert c ( u(n) + v(n) ) + c ( u(n + ) + v(n + ) ) + cr ( u(n + r) + v(n + r) ) = für alle n N. Also ist auch u + v U. 37

138 2. Man überzeugt sich leicht, dass h ein Homomorphismus ist. Um zu zeigen, dass h bijektiv ist, genügt es zu zeigen, dass es für jeden Vektor (a,..., a r ) K r genau eine Folge a U mit h(a) = (a,..., a r ) gibt. Zunächst muss für jede solche Folge a offensichtlich zumindest a(n) = a n für n =,..., r gelten. Ferner gilt für beliebiges n r, dass es wegen der Rekurrenz für den Wert von a(n) genau eine Möglichkeit gibt, nämlich a(n) = c r ( c a(n r) + c a(n r + ) + + c r a(n ) ). Durch Induktion nach n erhält man, dass alle Terme der Folge a eindeutig festgelegt sind. Beispiel. Die Lösungsmenge der Rekurrenz f(n) + f(n + ) f(n + 2) = ist ein zwei-dimensionaler Vektorraum. Jede Lösung ist eindeutig festgelegt durch ihre beiden Anfangswerte f() und f(). Insbesondere gibt es eine Lösung f mit f () = und f () = und eine Lösung f 2 mit f 2 () = und f 2 () =. Die Folge f ist die Folge der Fibonacci-Zahlen. Diese beiden Lösungen sind linear unabhängig, weil die Vektoren h(f ) = (, ) und h(f 2 ) = (, ) linear unabhängig sind. Es ist also {f, f 2 } eine Basis von U. Alle anderen Lösungen f lassen sich damit als Linearkombination αf + βf 2 schreiben. Die ersten Terme von f ergeben sich zu β, α, α + β, α + 2β, 2α + 3β, 3α + 5β, 5α + 8β,... Satz 67. Es sei a: N K eine C-finite Folge, die eine Rekurrenz der Ordnung r erfüllt. Dann gilt: Sind c,..., c r K so, dass c a(n) + c a(n + ) + + c r a(n + r) = für n =,..., r, so gilt c a(n) + c a(n + ) + + c r a(n + r) = für alle n N. Beweis. Nach Annahme über a existieren gewisse Konstanten c,..., c r wenigstens eine von Null verschieden ist, und für die gilt K, von denen c a(n) + c a(n + ) + + c r a(n + r) = für alle n N. Betrachte den Vektorraum U K N bestehend aus allen Folgen f mit c f(n) + c f(n + ) + + c r f(n + r) = für alle n N. Nach Satz 66 gilt dim U r. Ferner gilt neben a U auch (a(n + i)) n U für jedes fest gewählte i N, denn wenn c a(n) + c a(n + ) + + c r a(n + r) = 38

139 für alle n N gilt, dann gilt auch c a(n + i) + c a(n + i + ) + + c r a(n + i + r) = für alle n, i N. Da U ein Vektorraum ist, gehört auch die Linearkombination zu U. b(n) := c a(n) + c a(n + ) + + c r a(n + r) Nach Voraussetzung gilt nun b() = b() = = b(r ) =. Aus Teil 2 von Satz 66 folgt, dass b(n) = für alle n N. Beispiel. Satz 67 besagt, dass man die Koeffizienten der Rekurrenz für eine C-finite Folge a rekonstruieren kann, wenn man die Ordnung r der Rekurrenz sowie die Terme a(),..., a(2r ) kennt. Man braucht dazu bloß ein lineares Gleichungssystem zu lösen. Ist etwa bekannt, dass a: N Q eine Rekurrenz der Ordnung zwei erfüllt, so sucht man Konstanten c, c, c 2 Q mit c a(n) + c a(n + ) + c 2 a(n + 2) = für alle n N. Nach dem Satz genügt schon, dass diese Bedingung für n =, erfüllt ist. Wenn man außerdem weiß, dass a mit den Termen,, 5, 9 beginnt, dann konkretisiert sich die obige Gleichung für n =, zu ( ) 5 c c 5 9 =. c 2 Der Lösungsraum dieses Gleichungssystems wird aufgespannt von (6, 5, ), und also erfüllt a nach Satz 67 die Rekurrenz 6a(n) 5a(n + ) + a(n + 2) =. Wenn man die Ordnung r der Rekurrenz von a nicht kennt, dann kann man immer noch probieren, ob man für ein frei gewähltes r aus den bekannten Termen von a eine Rekurrenz rekonstruieren kann. Man macht dazu wie im vorherigen Beispiel einen Ansatz für die Koeffizienten und stellt ein lineares Gleichungssystem auf. Man sollte dabei r klein genug wählen, dass man aus den bekannten Termen von a ein überbestimmtes Gleichungssystem konstruieren kann (also eines mit mehr Gleichungen als Variablen). Solch ein System hat typischerweise keine Lösung außer. Wenn man trotzdem eine Lösung bekommt, dann ist das ein Indiz (aber natürlich noch kein Beweis), dass man die Koeffizienten der wahren Rekurrenz von a gefunden hat. Beispiel. Betrachte die Folge a: N Q mit a(n) = n F n, wobei F n die nte Fibonacci-Zahl ist. Die ersten Terme von a lauten,, 2, 6, 2, 25, 48, 9, 68, 36, 55. Ist a C-finit? Versuchen wir es mit r = 3. Wenn c a(n) + c a(n + ) + c 2 a(n + 2) + c 3 a(n + 3) = 39

140 für alle n N gelten soll, dann muss es auf jeden Fall auch für n =,..., 3 gelten. Das führt auf das Gleichungssystem c c c 2 c 3 =. Diese Gleichungssystem hat nur die triviale Lösung (,,, ). Daraus folgt, dass a ganz sicher keine Rekurrenz der Ordnung drei (oder kleiner) erfüllt. Es folgt aber nicht, dass a nicht C-finit ist. Es kann immer noch eine Rekurrenz höherer Ordnung erfüllen. Zum Beispiel r = 4. In diesem Fall bekommt man mit den gleichen Daten das lineare Gleichungssystem c c c c 3 = c Obwohl es sich wieder um ein überbestimmtes System handelt, gibt es eine nichttriviale Lösung, nämlich (, 2,, 2, ). Das legt die Vermutung nah, dass a die Rekurrenz erfüllt. a(n) + 2a(n + ) a(n + 2) 2a(n + 3) + a(n + 4) = In der Tat ist nicht schwer zu zeigen, dass diese Vermutung korrekt ist, indem man n F n in die Rekurrenz einsetzt und den entstehenden Ausdruck mithilfe der bekannten Rekurrenz F n+2 = F n+ + F n zu vereinfacht. Satz 68. Es seien (a n ) n= und (b n) n= zwei C-finite Folgen. Dann gilt:. (a n + b n ) n= ist C-finit. 2. (a n b n ) n= ist C-finit. 3. für jedes fixe u N ist (a un ) n= C-finit. 4. ( n k= a k) n= ist C-finit. 4

141 Beweis. Wir zeigen den zweiten Teil. Die Beweise für die anderen Teile gehen ähnlich. Nach Voraussetzung sind (a n ) n= und (b n) n= C-finit. Es gibt also (α,..., α r ) K r+ \ {} und (β,..., β s ) K s+ \ {} mit α a n + α a n+ + + α r a n+r = β b n + β b n+ + + β s b n+s =. Durch geeignete Wahl von r und s können wir o.b.d.a. annehmen, dass α r und β s ist. Aus den Rekurrenzen folgt dann, dass sich die Folgen (a n+r ) n= und (b n+s) n= als Linearkombinationen der Folgen (a n ) n=,..., (a n+r ) n= bzw. (b n) n=,..., (b n+s ) n= darstellen lassen. Allgemeiner folgt durch Induktion, dass sich für jedes fixe i N sogar die Folgen (a n+i ) n= und (b n+i) n= als Linearkombinationen dieser Folgen darstellen lassen. Für den Vektorraum V K N, der von den Folgen (a n+i b n+j ) n= mit i, j N erzeugt wird, gilt deshalb dim V rs; als Erzeugendensystem genügen nämlich die Folgen (a n+i b n+j ) n= mit i < r und j < s. Wegen dim V rs müssen je rs + viele Elemente von V linear abhängig sein. Insbesondere muss es eine lineare Abhängigkeit zwischen den Folgen (a n b n ) n=,..., (a n+rsb n+rs ) n= geben. Es gibt also Konstanten γ,..., γ rs K, von denen mindestens eine von Null verschieden ist, und für die gilt γ a n b n + γ a n+ b n+ + + γ s a n+rs b n+rs = für alle n N. Beispiel.. Sei a = (F n ) n= die Folge der Fibonacci-Zahlen und b = (n) n=. Es sei bekannt, dass a die Rekurrenz a(n) + a(n + ) a(n + 2) = und b die Rekurrenz b(n) 2b(n + ) + b(n + 2) = erfüllt. Gesucht sei eine Rekurrenz für c = (nf n ) n=. Es gilt a(n + 2) = a(n) + a(n + ) b(n + 2) = b(n) + 2b(n + ) a(n + 3) = a(n) + 2a(n + ) b(n + 3) = 2b(n) + 3b(n + ) a(n + 4) = 2a(n) + 3a(n + ) b(n + 4) = 3b(n) + 4b(n + ) für alle n N. Für die Produkte ergibt sich daraus a(n)b(n) = a(n)b(n) a(n + )b(n + ) = a(n + )b(n + ) a(n + 2)b(n + 2) = a(n)b(n) a(n + )b(n) + 2a(n)b(n + ) + 2a(n + )b(n + ) a(n + 3)b(n + 3) = 2a(n)b(n) 4a(n + )b(n) + 3a(n)b(n + ) + 6a(n + )b(n + ) a(n + 4)b(n + 4) = 6a(n)b(n) 9a(n + )b(n) + 8a(n)b(n + ) + 2a(n + )b(n + ). Die Koeffizienten der Rekurrenz findet man durch Lösen des linearen Gleichungssystems γ γ γ 2 γ =. γ 4 4

142 Dass das System eine Lösung haben muss, sieht man sofort daran, dass es mehr Variablen als Gleichungen hat. Und tatsächlich stellt sich heraus, dass der Lösungsraum eindimensional ist und vom Vektor (, 2,, 2, ) aufgespannt wird. Daraus folgt, dass die Folge c = (nf n ) n= die Rekurrenz erfüllt. c(n) + 2c(n + ) c(n + 2) 2c(n + 3) + c(n + 4) = 2. Auf der Grundlage von Satz 68 kann man ein Computerprogramm schreiben, das Identitäten für C-finite Folgen automatisch beweist. Um zum Beispiel die Summationsformel n Fk 2 = F nf n+ k= zu beweisen, beginnt das Programm mit der Rekurrenz F n + F n+ F n+2 = für die Fibonacci-Zahlen, die entweder vom Benutzer eingegeben oder aus einer Datenbank gelesen wird. Dann berechnet es wie im vorherigen Beispiel je eine Rekurrenz für (Fn) 2 n= und für (F n F n+ ) n=. Aus der Rekurrenz für (F n) 2 n= lässt sich als nächstes eine Rekurrenz für die Summe ( n k= F k 2) n= berechnen, und daraus schließlich eine Rekurrenz für die Differenz d(n) := ( n k= F k 2) F nf n+ von linker und rechter Seite. Das Ergebnis dieser Rechnung lautet d(n) 2d(n + ) 2d(n + 2) + d(n + 3) = für alle n N. Um zu zeigen, dass d(n) = für alle n N gilt, braucht man nach Teil 2 von Satz 66 nur noch nachzurechnen, dass d(n) = für n =,, 2 gilt. 23 Kodierungstheorie Digitale Informationsverarbeitung beruht auf dem Prinzip, jede mögliche Information als eine Folge von Nullen und Einsen darzustellen. Diese Folgen sind immer endlich, aber möglicherweise sehr lang. Die Datei dieses Skriptums ist zum Beispiel mehrere Megabyte groß. Das bedeutet, sie wird im Computer dargestellt als eine Folge von mehreren Millionen Vektoren b {, } 8. Einen solchen Vektor nennt man ein Byte. Die Koordinaten eines Bytes nennt man Bit. Ein Bit kann je nach Kontext zum Beispiel Informationen wie an/aus, schwarz/weiss, /, wahr/falsch, rechts/links, männlich/weiblich codieren. In einem Byte kann man z. B. die natürlichen Zahlen von bis 255 codieren: (,,,,,,, ) =, (,,,,,,, ) =, (,,,,,,, ) = 2, (,,,,,,, ) = 3, (,,,,,,, ) = 4, etc. Auch die Zeichen in einem Text kann man mit Bytes codieren, indem man z. B. durch eine Tabelle festlegt, welches Byte welchem Buchstaben entsprechen soll. Die 256 verschiedenen Bytes sind mehr als ausreichend, um die 52 Groß- und Kleinbuchstaben, die Ziffern, das Leerzeichen und einige Interpunktions- und Sonderzeichen unterzubringen. 42

143 Mit Folgen von Bytes läßt sich quasi alles codieren: Zahlen, Formeln, Texte, Computerprogramme, geometrische Objekte, Farben, Kundendaten, Fahrpläne, Musik, Fotos, Videos, Wetter- und Klimamodelle, usw. In der Kodierungstheorie beschäftigt man sich mit dem Design solcher Codierungen. Allgemeiner stellt man sich die Frage, wie man eine gegebene Codierung (d. h. eine gegebene Bitfolge) in eine andere umwandeln kann, die zum Übertragen oder Speichern der Information besser geeignet ist. Typische Fragestellungen sind in diesem Zusammenhang: Datenkompression: Wie kann ich eine gegebene Bitfolge in eine kürzere Bitfolge umwandeln, die die gleiche Information enthält? Oder: Kann ich aus einer gegebenen Bitfolge die wesentliche Information von der unwesentlichen trennen, so dass ich nur die wesentliche speichern oder übertragen muss? Fehlererkennung: Wie kann ich eine gegebene Bitfolge so abändern, dass sich nach der Übertragung feststellen lässt, ob ein Teil der Bitfolge fehlerhaft übertragen wurde? Lassen sich die Fehler nachträglich reparieren? Kryptographie: Wie kann ich eine gegebene Bitfolge verschlüsseln, d. h. so abändern, dass die darin codierte Information ohne geeignetes geheimes Zusatzwissen nicht zu rekonstruieren ist. Oder: wie kann ich eine gegebene Bitfolge signieren, d. h. so abändern, dass ein Empfänger verifizieren kann, dass die Nachricht wirklich von mir stammt? Es gibt zu jedem dieser Punkte zahlreiche Techniken. Manche davon verwenden lineare Algebra. Als Beispiel erklären wir hier eine einfache Methode zur Fehlererkennung. Für Verallgemeinerungen und andere Methoden sei auf entsprechende Lehrveranstaltungen oder die Literatur verwiesen. Definition 48.. Das Gewicht eines Vektors a = (a,..., a n ) Z n 2 ist definiert als w(a) := { i : a i } {,..., n}. 2. Für a = (a,..., a n ), b = (b,..., b n ) Z n 2 Distanz von a und b. heißt d(a, b) := w(a b) die Hamming- 3. Ein Untervektorraum U Z n 2 der Dimension k heißt linearer Code von Länge n und Rang k. Elemente von U heißen Codewörter. Die Distanz eines linearen Codes U Z n 2 ist definiert als d = min{ w(u) : u U \ {} } N. 4. Ist U Z n 2 ein Code, dann heißt eine geordnete Basis A Zn k 2 von U eine Erzeugermatrix und eine Matrix B Z (n k) n 2 mit ker B = U eine Prüfmatrix für U. Beispiel.. w(,,,,,,, ) = 4, w(,,,,,,, ) = 5, w(,,,,,,, ) = 5, etc. d(a, b) ist die Anzahl der Positionen, an denen sich a und b voneinander unterscheiden, zum Beispiel: d ( (,,,,,, ), (,,,,,, ) ) = d ( (,,,,,, ), (,,,,,, ) ) = 2 d ( (,,,,,, ), (,,,,,, ) ) = 3 43

144 d ( (,,,,,, ), (,,,,,, ) ) = 4 d ( (,,,,,, ), (,,,,,, ) ) = 5 Es gilt d(a, b) = genau dann, wenn a = b ist. 2. Der Unterraum U Z 4 2, der von u = (,,, ) und u 2 = (,,, ) erzeugt wird, besteht aus den folgenden Codewörtern: u + u 2 = (,,, ) u + u 2 = (,,, ) u + u 2 = (,,, ) u + u 2 = (,,, ). Die Distanz dieses Codes ist 2. Eine Erzeugermatrix für U ist A =. ( ) Eine Prüfmatrix für U ist B =. Angenommen, man will k Bits über einen Kanal übertragen. Rauschen auf dem Kanal kann jedes übertragene Bit mit einer bestimmten (kleinen) Wahrscheinlichkeit ändern. Wir wollen die k Bits so codieren, dass der Empfänger eine korrekte Übertragung von einer fehlerhaften unterscheiden kann, solange in der Übertragung weniger als d Fehler auftreten. Man wählt dazu einen Code U Z n 2 vom Rang k und Distanz d. Statt des Codeworts v Z k 2 überträgt man u := Av Z n 2, wobei A eine Erzeugermatrix von U ist. Beim Empfänger kommt ein Vektor ũ Z n 2 an, den er sich vorstellt als eine Überlagerung ũ = u + r des (ihm unbekannten) korrekten Codeworts u Z n 2 und einem (ihm ebenfalls unbekannten) Bitvektor r Z n 2, der dem Effekt des Rauschens entspricht. Wenn ũ U gilt, dann ist auch r = ũ u U und w(r) d oder r =, nach der Definiton der Distanz von U. Wenn der Empfänger also ein Codewort ũ enthält, dann ist entweder die Übertragung fehlerfrei gewesen oder es ist zu mindestens d Fehlern gekommen. Ob ũ ein Codewort ist, kann der Empfänger mit einer Prüfmatrix B für U überprüfen: dies ist genau dann der Fall, wenn Bũ = gilt. Beispiel. Betrachte den Code H Z 7 2 mit A =, B = als Erzeuger- bzw. Prüfmatrix. Dieser Code heißt Hamming-Code. Die Länge ist n = 7, der Rang ist k = 4. Die Distanz ist nicht direkt offensichtlich, aber da es nur 2 k = 6 Codewörter gibt, kann man leicht alle auflisten und sich vergewissern, dass d = 3 ist. Bei der Übertragung zweier Codewörter u, u 2 durch einen verrauschten Kanal wurden die beiden Wörter ũ = (,,,,,, ) und ũ 2 = (,,,,,, ) empfangen. 44

145 Wegen Bũ = (,, ) und Bũ 2 = (,, ) wurde das zweite nicht fehlerfrei übertragen. Bei der Übertragung des ersten Worts gab es entweder keinen Fehler oder mehr als zwei. Das zweite Wort enthält ein oder mehrere falsche Bits. Wenn wir annehmen, dass nur ein Bit verfälscht wurde, lässt sich das korrekte Codewort u 2 aus ũ 2 rekonstruieren. In diesem Fall ist ũ 2 = u 2 + e i für einen Einheitsvektor e i. Wir haben Bũ 2 = B(u 2 + e i ) = Bu 2 + Be i = Be i. Da Be i die i-te Spalte von B ist und Bũ 2 = (,, ) gilt, muss i = 4 sein. Das gesendete Wort war also entweder u 2 = (,,,,,, ), oder es gab bei der Übertragung mehr als einen Fehler. Satz 69. Sei U Z n 2 ein Code der Länge n mit Rang k und Distanz d. Dann gilt k+d n+. Beweis. Wegen Z 2 = 2 und dim U = k gilt U = 2 k. Nach Definition der Distanz gilt w(u) d für alle u U \ {}. Für je zwei verschiedene Codewörter u, v U gilt dann auch d(u, v) = w(u v) d. Wenn also u = (u,..., u n ) und v = (v,..., v n ) ist, dann muss auch (u d,..., u n ) (v d,..., v n ) gelten. Da es höchstens 2 n d+ viele verschiedene Bitvektoren der Länge n d + gibt, muss also U 2 n d+ sein. Daraus folgt 2 k 2 n d+, und daraus k n d +. Die Distanz d eines Codes sagt aus, wie viele Fehler auftreten dürfen, ohne dass dem Empfänger die Fehlerhaftigkeit des empfangenen Wortes entgehen kann. Die Differenz n k gibt an, wie viele zusätzliche Bits der Code einsetzt, um diese Fehlererkennung zu gewährleisten. In der Praxis möchte man d möglichst groß und n (bzw. n k) möglichst klein haben. Der obige Satz setzt diesem Zielkonflikt eine Grenze. Der Hamming-Code erreicht diese Grenze nicht: k + d = = 5 < 8 = 7 + = n +. Tatsächlich gibt es überhaupt keine (brauchbaren) Codes, für die k + d = n + gilt, zumindest solange man über dem Körper Z 2 arbeitet. Codes, die für Speichermedien oder in Mobilfunknetzen verwendet werden, verwenden daher Körper K mit z. B. 2 8 = 256 Elementen. Für solche Körper kann man (brauchbare) lineare Codes konstruieren, für die k +d = n+ gilt. Ein Beispiel sind die sogenannten Reed-Solomon- Codes, deren Erklärung an dieser Stelle allerdings zu weit führen würde. 24 Lineare Algebra in Maple, Mathematica und Sage Mit Vektoren und Matrizen von Hand zu rechnen ist mühsam, zweitaufwendig, fehleranfällig und zum Glück heute nicht mehr nötig. Es gibt eine ganze Reihe von Computerprogrammen, die diese Arbeit bequem, schnell, und zuverlässig übernehmen. Grob einteilen lassen sich diese Programme in numerische und symbolische Software. Numerische Software ist auf den Fall spezialisiert, dass der Grundkörper R oder C ist. In diesen Körpern kann man im allgemeinen nur approximativ rechnen. Das hat sowohl theoretische Gründe (eine reelle Zahl ist erst dann eindeutig festgelegt, wenn man all ihre potentiell unendlich vielen Nachkommastellen kennt die passen aber nicht in den endlichen Speicher eines Computers) als auch praktische (wenn es sich um Messwerte einer physikalischen Anwendung handelt, wird man von einer gewissen Messungenauigkeit ausgehen müssen). Wenn man mit gerundeten Zahlen rechnet, stellt sich die Frage, wieviel Genauigkeit man durch die Rechnung verliert, d. h. wie viele Nachkommastellen des Ergebnisses korrekt sind. Man kann sich dann auch fragen, ob eine andere Rechnung, die mathematisch äquivalent ist, eventuell eine bessere Genauigkeit liefert. Damit wollen wir uns hier nicht beschäftigen. Antworten auf Fragen dieser Art und einen Überblick über die entsprechenden Softwaresysteme bekommen Sie in den Lehrveranstaltungen des Instituts für Numerik. Symbolische Software ist auf die Fälle spezialisiert, wo man die Elemente des Grundkörpers exakt darstellen und ohne Genauigkeitsverlust mit ihnen rechnen kann. Das ist insbesondere der Fall für den 45

146 Körper der rationalen Zahlen und für endliche Körper, aber zum Beispiel auch für den Körper Q(X) der rationalen Funktionen über Q. Wir geben hier für drei solche Systeme einige Beispiele, wie man einfache Rechnungen mit Vektoren und Matrizen in diesen Systemen durchführt. Man darf sich vorstellen, dass intern das gleiche passiert, was auch bei einer Handrechnung passieren würde, auch wenn das nicht unbedingt der Fall ist. Was diese Systeme wirklich tun, werden wir am Ende des zweiten Semesters besprechen. Mehr dazu erfahren Sie am Institut für Symbolisches Rechnen oder am Institut für Algebra. Beispiel.. Maple. Die Funktionalität für das Rechnen mit Vektoren und Matrizen wird in Maple in einem Paket LinearAlgebra zusammengefasst, das man zunächst laden muss, wenn man Funktionen aus diesem Paket verwenden will. Danach hat man Funktionen zur Verfügung, mit denen man Vektoren und Matrizen erzeugen, auf deren Komponenten zugreifen, sie addieren und multiplizieren und Gleichungssysteme lösen kann. Es ist zu beachten, dass Maple zwischen Zeilen und Spaltenvektoren unterscheidet. with(linearalgebra) : v := Vector([7, 4, 3]); v[2] v v + Vector([, 2, 3]) A := Matrix([[, 2, 3], [4, 5, 6], [7, 8, 9]]) A[2, 3] 6 Multiply(A, v) Multiply(v, A) Error, (in Multiply) cannot multiply a column Vector and a Matrix vt := Transpose(v); 46

147 [ ] Multiply(vt, A) [ ] B := Matrix([[,, ], [, 2, 3], [, 4, 9]]) Multiply(A, B) Aˆ5 Bˆ( ) NullSpace(A) LinearSolve(B, v) Standardmäßig werden Zahlen von Maple als rationale Zahlen interpretiert. Man kann aber auch mit Vektoren und Matrizen über einem endlichen Körper Z p mit p Z prim rechnen. Funktionen dafür gibt es im Unterpaket LinearAlgebra/Modular. Modular[Multiply](7, A, B) Modular[Inverse](7, B)

148 2. Mathematica. Vektoren sind in Mathematica einfach die Listen ihrer Koordinaten. Eine Liste wird in Mathematica mit geschweiften Klammern geschrieben. Es handelt sich aber wirklich um Listen, nicht um Mengen, d. h. Reihenfolge und Vielfachheit von Elementen machen einen Unterschied. Vektoren kann man miteinander addieren oder mit einer Konstanten multiplizieren. In[]:= {, 2, 3} == {, 2, 3, 3} Out[]= False In[2]:= {, 2, 3} == {, 3, 2} Out[2]= False In[3]:= v = {7, 4, 3} Out[3]= {7, 4, 3} In[4]:= Length[v] Out[4]= 3 In[5]:= v[[2]] Out[5]= 4 In[6]:= 5{, 2, 3} Out[6]= {5,, 5} In[7]:= {, 2, 3} + v Out[7]= {8, 6, } Matrizen werden in Mathematica als Listen von (Zeilen-)Vektoren dargestellt. Man kann Matrizen miteinander addieren und multiplizieren, oder mit Zahlen oder Vektoren multiplizieren. Außerdem gibt es Funktionen zum Transponieren, Invertieren, und zum Lösen von Gleichungssystemen. In[8]:= A = {{, 2, 3}, {4, 5, 6}, {7, 8, 9}} Out[8]= {{, 2, 3}, {4, 5, 6}, {7, 8, 9}} In[9]:= A[[2, 3]] Out[9]= 6 In[]:= A.v Out[]= {6, 3, 54} In[]:= v.a Out[]= {2,, 8} In[2]:= Transpose[A] Out[2]= {{, 4, 7}, {2, 5, 8}, {3, 6, 9}} In[3]:= MatrixRank[A] 48

149 Out[3]= 2 In[4]:= Nullspace[A] Out[4]= {{, 2, }} In[5]:= B = {{,, }, {, 2, 3}, {, 4, 9}} Out[5]= {{,, }, {, 2, 3}, {, 4, 9}} In[6]:= 2A B Out[6]= {{, 3, 5}, {7, 8, 9}, {3, 2, 9}} In[7]:= A.B Out[7]= {{6, 7, 34}, {5, 38, 73}, {24, 59, 2}} In[8]:= LinearSolve[B, v] Out[8]= { 9 2, 2, 2 } In[9]:= B.% v Out[9]= {,, } In[2]:= Inverse[B] Out[2]= {{3, 5 2, 2 }, { 3, 4, }, {, 3 2, 2 }} Der Punkt beim Multiplizieren ist wesentlich: A.B bedeutet Matrix-Matrix oder Matrix- Vektor-Multiplikation. Schreibt man A B oder AB, so werden die Einträge komponentenweise miteinander multipliziert oder es gibt eine Fehlermeldung, falls das Format nicht passt. Vorsicht auch beim Potenzieren: Wenn man A 5 eingibt, nimmt Mathematica alle Einträge der Matrix einzeln hoch fünf, aber nicht die gesamte Matrix im Sinn der Matrixmultiplikation. Um das zu tun, verwendet man die Funktion MatrixPower In[2]:= A B == A.B Out[2]= False In[22]:= Aˆ5 Out[22]= {{, 32, 243}, {24, 325, 7776}, {687, 32768, 5949}} In[23]:= MatrixPower[A, 5] Out[23]= {{2824, 49688, 77552}, {275886, , 4284}, {429948, , 62666}} Standardmäßig interpretiert Mathematica Zahlen als rationale Zahlen. Will man stattdessen in einem endlichen Körper Z p mit p Z prim rechnen, muss man den Modulus p der jeweiligen Funktion als optionales Argument mitgeben. In[24]:= Inverse[B, Modulus 7] Out[24]= {{3, 6, 9}, {4, 4, 6}, {, 7, 9}} In[25]:= LinearSolve[B, v, Modulus 7] 49

150 Out[25]= {, 5, 8} In[26]:= B.% v Out[26]= {7, 5, 36} In[27]:= Mod[%, 7] Out[27]= {,, } 3. Sage. Dieses System basiert auf der Programmiersprache Python. Korrekter Python- Code ist (fast) immer auch korrekter Sage-Code. Darüber hinaus hat Sage einige Sprachkonstrukte, mit denen man mathematische Objekte beschreiben kann. Jedes solche Sage- Objekt ist entweder ein Parent dabei handelt es sich zum Beispiel um Gruppen, Ringe, Körper, Vektorräume oder ein Element das sind Objekte, die zu einem Parent gehören. 2.parent() Integer Ring (/3).parent() Rational Field v = vector(qq, [7, 4, 3]) v (7, 4, 3) v.parent() Vector space of dimension 3 over Rational Field 7 v[] A = matrix(qq, [[, 2, 3], [4, 5, 6], [7, 8, 9]]) B = matrix(qq, [[,, ], [, 2, 3], [, 4, 9]]) A.parent() Full MatrixSpace of 3 by 3 dense matrices over Rational Field 6 A[, 2] v A (2,, 8) A v (6, 3, 54) 2 A B 5

151 A.transpose() A.right kernel() Vector space of degree 3 and dimension over Rational Field Basis matrix: ( 2 ) 2 A.rank() A B Aˆ Bˆ( ) 3 5/2 / /2 /2 B.solve right(v) (9/2, 2, /2) Um über einem endlichen Körper zu rechnen, muss man bei der Erzeugung der Vektoren und Matrizen GF(p) für Z p (p Z prim) statt QQ für Q angeben. Die Kommandos für die Rechnungen selbst ändern sich nicht. v = vector(gf(7), [7, 4, 3]) A = matrix(gf(7), [[, 2, 3], [4, 5, 6], [7, 8, 9]]) A.v (6, 3, 3) A.right kernel() Vector space of degree 3 and dimension over Finite Field of size 7 Basis matrix: ( 5 ) 5

152 Systeme wie Maple, Mathematica und Sage stellen tausende mathematische Funktionen bereit. Allein die Funktionen, die etwas mit linearer Algebra zu tun haben, sind zu zahlreich, um sie alle hier zu erwähnen. Einen vollständigen Überblick finden Sie in den Dokumentationen dieser Systeme. 52

153 Teil V Eigenwerte 53

154 25 Polynome Zur Erinnerung: Ist K ein Körper, so bezeichnet man mit K[X] den Ring aller Polynome mit Koeffizienten in K. Jedes Polynom hat die Form p = p + p X + + p d X d für gewisse p,..., p d K. Ist p d, so ist deg(p) := d der Grad des Polynoms. Für das Nullpolynom definiert man deg() =. Man nennt [x i ]p := p i den i-ten Koeffizienten von p und insbesondere lc(p) := p d den Leitkoeffizienten (engl. leading coefficient) von p. Satz 7. Seien a, b K[X] mit b. Dann gibt es genau ein Paar (q, r) K[X] 2 mit a = qb + r und deg(r) < deg(b). Beweis. Existenz: Zunächst ist klar, dass es Paare (q, r) K[X] 2 mit a = qb + r gibt, z.b. (q, r) = (, a). Betrachte von all diesen Paaren ein Paar (q, r), für das deg(r) minimal ist. Wäre deg(r) deg(b), so wäre (q, r ) mit r = r lc(r) lc(b) xdeg r deg b b, q = q + lc(r) r deg b xdeg lc(b) ein Paar mit q, r K[X] und a = q b + r und deg(r ) < deg(r), im Widerspruch zur angenommenen Minimalität von deg(r). Eindeutigkeit: Seien (q, r), (q, r ) K[X] 2 zwei Paare mit a = qb + r = q b + r und deg(r), deg(r ) < deg(b). Dann gilt (q q )b = r r. Wäre q q, so wäre (q q )b und deg(q q )b deg b, während deg(r r) max{deg(r), deg(r )} < deg(b). Da das nicht sein kann, muss q q =, d.h. q = q gelten. Dann aber folgt = r r und also r = r. Beispiel. Die Konstruktion aus dem Beweis des Satzes lässt sich als Rechenvorschrift zur Berechnung des Paars (q, r) für ein gegebenes Paar (a, b) K[X] 2 interpretieren. Man bezeichnet diesen Prozess als Polynomendivision. Für a = 3X 4 4X 2 + 8X und b = X 2 + X + 2 erhält man zum Beispiel a {}}{ 3X 4 + X 3 4X 2 + 8X = 3X 4 + 3X 3 + 6X 2 3X 3 X 2 + 8X 3X 3 3X 2 6X 7X 2 + 4X 7X 2 7X 4 2X + 3 b {}}{ (X 2 + X + 2) (3X 2 3X 7) } {{ } q + (2X + 3) }{{} r Bei der Berechnung arbeitet man sich in absteigender Reihenfolge durch die Koeffizienten von a. Zunächst teilt man den höchsten Term 3X 4 von a durch den höchsten Term X 2 von b. Das Ergebnis 3X 4 /X 2 = 3X 2 ist der höchste Term von q. Nachdem man diesen Term notiert hat, schreibt man das Produkt dieses Terms mit b unter a; in diesem Fall 3X 4 + 3X 3 + 6X 2. Dann zieht man dieses Polynom von a ab und erhält 3X 3 X 2 +8X. Dessen höchsten Term 3X 3 teilt man durch den höchsten Term X 2 von b, um den nächsten Term von q zu erhalten, das ist in unserem Fall 3X. Das Verfahren lässt sich fortsetzen, bis eine Differenz entsteht, deren Grad kleiner ist als deg(b). Diese Differenz ist dann r. 54

155 Definition 49. Seien a, b K[X], b.. Es sei (q, r) K[X] 2 das Paar aus Satz 7. Dann heißen quo(a, b) := q und rem(a, b) := r 3-4 der Quotient und der Rest (engl. remainder) der Division von a durch b. 2. b heißt Teiler (engl. divisor) oder Faktor von a, falls rem(a, b) =. In diesem Fall schreibt man b a, anderenfalls b a. Ist e N so, dass b e a und b e+ a, so heißt e die Vielfachheit (engl. multiplicity) des Teilers b von a. 3. Ist b = X α für ein α K und gilt b a, so heißt α eine Nullstelle (engl. root) von a. Die Vielfachheit der Nullstelle α ist die Vielfachheit des Faktors X α. Beispiel.. Es gilt quo(3x 4 4X 2 + 8X, X 2 + X + 2) = 3X 2 3X 7 und rem(3x 4 4X 2 + 8X, X 2 + X + 2) = 2X + 3. Da der Rest nicht Null ist, gilt also X 2 + X + 2 3X 4 4X 2 + 8X. 2. Für ein beliebiges Polynom a = a + a X + + a n X n und α K gilt rem(a n X n + a n X n + + a, X α) = a n α n + a n α n + + a. Dass α K eine Nullstelle von a ist, heißt also, dass die zu a gehörende Polynomfunktion 3-3 K K, x a n x n + a n x n + + a an der Stelle α den Wert hat. 3. a = (X 2) 4 (X 3) 2 (X + 5) hat die drei Nullstellen 2, 3, 5. Die Nullstelle 2 hat die Vielfachheit 4, die Nullstelle 3 hat die Vielfachheit 2 ( 3 ist eine doppelte Nullstelle ), und die Nullstelle 5 hat die Vielfachheit ( 5 ist eine einfache Nullstelle ). 4. Ob ein Polynom Nullstellen hat, hängt im allgemeinen davon ab, welchen Körper man zugrunde legt. Zum Beispiel hat a = X 2 2 als Element von Q[X] keine Nullstellen, aber als Element von R[X] schon (nämlich 2 und 2). 5. Teilbarkeit ist eine transitive Relation auf K[X]\{}, d.h. aus u v und v w folgt u w. Für zwei Polynome u, v K[X] \ {} gilt sowohl u v als auch v u genau dann, wenn es ein α K \ {} gibt mit u = αv. (Beweis: Übung.) Man sagt dann, die Polynome u, v sind (zueinander) assoziiert. Jedes Polynom a K[X] \ {} hat nur endlich viele nicht zueinander assoziierte Teiler. Die Teiler von a = (X 5) 3 (X 8) 2 sind im folgenden dargestellt: 55

156 (X 5) 3 (X 8) 2 (X 5) 3 (X 8) (X 5) 2 (X 8) 2 (X 5) 3 (X 5) 2 (X 8) (X 5)(X 8) 2 (X 5) 2 (X 5)(X 8) (X 8) 2 X 5 X 8 Für fixes p K[X] \ {} ist die Abbildung R: K[X] K[X] mit R(u) := rem(u, p) ein Vektorraumhomomorphismus, d.h. es gilt R(αu + βv) = αr(u) + βr(v) für alle α, β K und u, v K[X]. Es gilt ker R = pk[x] = { u K[X] : p u }. Eine Basis des Quotientenraums K[X]/pK[X] ist {[], [X],..., [X deg(p) ] }. Der Vektorraum K[X]/pK[X] wird mit den Verknüpfungen [u] + [v] := [u + v], [u] [v] := [uv] zu einem Ring. Diese Definitionen sind repräsentantenunabhängig, denn wenn z.b. u u und v v gilt, so gilt uv uv + (u u)v = u v u v + u (v v) = u v. Man beachte die Ähnlichkeit zur Konstruktion endlicher Ringe Z m. In der Tat lässt sich vieles, was in diesem Abschnitt über den Ring K[X] gesagt wird, in ähnlicher Weise für den Ring Z formulieren. Dem Grad eines Polynoms entspricht in Z der Absolutbetrag. So gilt zum Beispiel, dass es zu jeder Wahl von a, b Z mit b genau ein Paar (q, r) Z 2 gibt mit a = bq + r und r < b. Der Begriff der Nullstelle eines Polynoms hat dagegen für ganze Zahlen keine Entsprechung. Definition 5. Seien p, q, g K[X].. g heißt ein gemeinsamer Teiler (engl. common divisor) von p und q, falls es u, v K[X] gibt mit gu = p und gv = q. 2. g heißt ein größter gemeinsamer Teiler (engl. greatest common divisor) von p und q, falls g ein gemeinsamer Teiler von p und q ist und für jeden anderen gemeinsamen Teiler g von p und q gilt g g. Beispiel. X 8 ist ein gemeinsamer Teiler von (X 5) 2 (X 8) und (X 5)(X 8) 2. Es ist aber kein größter gemeinsamer Teiler. Ein größter gemeinsamer Teiler von (X 5) 2 (X 8) und (X 5)(X 8) 2 ist (X 5)(X 8). Ein anderer größter gemeinsamer Teiler ist 23(X 5)(X 8). Satz 7. Seien p, q K[X]. Dann gilt:. Es gibt einen größten gemeinsamen Teiler g von p und q. 2. Zu je zwei größten gemeinsamen Teilern g, g von p und q gibt es ein α K \ {} mit g = α g. 56

157 Beweis.. Für Polynome a, b K[X] bezeichne T (a, b) die Menge aller gemeinsamen Teiler von a und b, d.h. T (a, b) = { u K[X] \ {} : u a, u b }. Wir zeigen, dass T (p, q) bezüglich der Relation ein maximales Element hat (und insbesondere nicht leer ist). Man überzeugt sich leicht, dass für je drei Polynome a, b, u K[X] gilt T (a, b) = T (b, a) und T (a, b) = T (a, b+ua). Außerdem ist leicht einzusehen, dass a ein maximales Element von T (a, ) ist. Aus den ersten beiden Beobachtungen folgt, dass T (p, q) = T (q, rem(p, q)) gilt. Definiert man r = rem(p, q), r = rem(q, r), r = rem(r, r ),..., so gilt deg(r) > deg(r ) > deg(r ) >. Da die Grade eines Polynoms natürliche Zahlen sind, muss diese Folge irgendwann abbrechen. Das kann sie nur, indem nach endlich vielen Schritten das Nullpolynom auftaucht, denn für jedes andere Polynom ließe sich die Folge nach Satz 7 durch einen weiteren Divisionsschritt fortsetzen. Ist r (k) das letzte von Null verschiedene Polynom der Folge, so gilt also T (p, q) = T (r (k), ). Damit ist r (k) ein maximales Element von T (p, q). 2. Sind g, g zwei größte gemeinsame Teiler, so gilt g g und g g. Also gibt es Polynome u, ũ K[X] mit g = gũ und g = gu. Ist g =, so ist auch g = und wir können α = 3-3 wählen. Wenn g ist, folgt u und ũ, also deg(u), deg(ũ). Außerdem gilt dann deg(g) und damit wegen g = guũ auch deg(g) = deg(g)+deg(u)+deg(ũ), also deg(u) + deg(ũ) =. Diese Summe kann nur dann Null sein, wenn deg(u) = deg(ũ) = 4-26 ist, und dies ist gleichbedeutend mit u, ũ K \ {}. Wir können also α = ũ wählen. Beispiel. Der Algorithmus im Beweis von Teil heißt euklidischer Algorithmus. Für p = X 6 3X 5 + 3X 4 X 3 + 4X 2 23X 3 q = X 3 X 2 3X 9 erhält man 3-4 r = rem(p, q) = 4X 2 + X 39 r = rem(q, r) = 3 6 X r = rem(r, r ) =. Also ist r = 3 6 X ein größter gemeisamer Teiler von p und q. Da der größte gemeinsame Teiler nur bis auf Multiplikation mit einem von Null verschiedenen Körperelement bestimmt ist, kann man mit 6 3 multiplizieren und erhält, dass X 3 ein größter gemeinsamer Teiler von p und q ist. Man kann übrigens jedes der Polynome r, r, r vor dem Weiterrechnen mit einem Element von K \ {} multiplizieren, ohne die Korrektheit des Algorithmus zu beeinträchtigen. Im Fall K = Q ist das auch dringend empfohlen, weil sonst im Laufe der Rechnung sehr schnell sehr lange Brüche auftreten, die keine besondere Bedeutung haben und nur die Rechnung verlangsamen. 57

158 Definition 5.. Ein Polynom p K[X] \ {} heißt normiert (engl. monic), falls lc(p) = gilt. 2. Für p, q K[X] mit p oder q sei gcd(p, q) der größte gemeisame Teiler g von p und q mit lc(g) =. Im Fall p = q = definiert man gcd(, ) =. 3. Zwei Polynome p, q K[X] heißen teilerfremd (engl. coprime), falls gcd(p, q) = ist. Der Begriff des größten gemeinsamen Teilers lässt sich analog für Z statt K[X] formulieren. Insbesondere übertragen sich Satz 7 und der euklidische Algorithmus. Es gibt aber zwischen dem gcd in K[X] und dem in Z keinen direkten Zusammenhang, sondern es handelt sich nur um eine analoge Begriffsbildung. Insbesondere gilt im allgemeinen nicht, dass für Polynome p, q Z[X] Q[X] die Polynomfunktion von gcd(p, q) ausgewertet an n =, 2, 3,... gerade die größten gemeinsamen Teiler von p(n) und q(n) in Z liefert. Für p = X + 3 und q = 2X gilt zum Beispiel gcd(p, q) = in Q[X], aber gcd(p(4), q(4)) = gcd(7, 7) = 7 in Z. Satz 72. Für alle p, q K[X] existieren u, v K[X] mit gcd(p, q) = up + vq. 3-8 Beweis. Im Fall p = oder q = ist die Aussage trivial. Betrachte also den Fall p q. Nach dem euklidischen Algorithmus (im Beweis von Satz 7) taucht gcd(p, q) in der Folge r = p, r = q, r k = rem(r k 2, r k ) (k 2) auf. Es genügt also zu zeigen, dass für jedes k Polynome u k, v k K[X] mit r k = u k p + v k q existieren. Induktion nach k. Induktionsanfang: Für k = und k = können wir u =, v =, u =, v = wählen. Induktionsschritt k 2, k k. Nach Annahme gibt es u k 2, v k 2, u k, v k K[X] mit r k 2 = u k 2 p + v k 2 q und r k = u k p + v k q. Nach Definition gilt wie gefordert. r k = rem(r k 2, r k ) = r k 2 quo(r k 2, r k )r k = (u k 2 p + v k 2 q) quo(r k 2, r k )(u k p + v k q) = ( ) u k 2 quo(r k 2, r k )u k } {{ } K[X] p + ( ) v k 2 quo(r k 2, r k )v k q, }{{} K[X] 3-3 Beispiel. Betrachte a = 3X 3 + 4X 2 X + 2, b = X 2 + 2X + 3 Q[X]. Aus der Rechnung k q k = quo(r k 2, r k ) r k = r k 2 q k r k u k = u k 2 q k u k v k = v k 2 q k v k 3X 3 + 4X 2 X + 2 X 2 + 2X X 2 6X + 8 3X X X X2 4 3 X ( 6X + 8) folgt 67 ( 9 = 6 X + 5 ) ( a X2 4 3 X ) b, 58

159 bzw. nach Normierung gcd(a, b) = = 9 ( 67 6 X + 5 a + }{{ 9) 9 ( } 67 2 X2 4 3 X + 9 ) b. }{{ 9 } =u =v Definition 52. Ein Polynom p K[X] \ {} heißt irreduzibel, falls gilt: a, b K[X] : p = ab a K b K. Beispiel.. Alle Polynome vom Grad sind irreduzibel. Solche Polynome nennt man auch linear, obwohl die zugehörigen Polynomfunktionen im allgemeinen nicht linear im Sinn von Def. 34 sind. 2. X 2 2 Q[X] ist irreduzibel, aber X 2 2 R[X] ist nicht irreduzibel, da X 2 2 = (X 2)(X + 2) und X 2, X + 2 R[X]. 3. X 2 + ist irreduzibel als Polynom in Q[X] und R[X], aber nicht als Polynom in C[X], da X 2 + = (X + i)(x i). 4. X 2 2 ist irreduzibel in Z 5 [X], denn gäbe es a, b Z 5 mit X 2 2 = (X + a)(x + b) = X 2 + (a + b)x + ab, so müsste a + b = und ab = 2, also a = b und b 2 = 2 sein. Es 5-5 gilt aber 2 =, 2 =, 2 2 = 4, 3 2 = 4, 4 2 = in Z 5, und weitere Möglichkeiten für b gibt es nicht. Jedoch ist X 2 2 nicht irreduzibel als Element von Z 7 [X], denn hier gilt (X+3)(X+4) = 5-5 X 2 + (3 + 4)X + 2 = X 2 + X + ( 2) = X Satz 73. Sei p K[X] \ {}. Dann sind folgende Aussagen äquivalent:. p ist irreduzibel. 2. Der Ring K[X]/pK[X] ist ein Körper. 3. a, b K[X] : p ab p a p b Beweis. () (2). Zu zeigen: Für jedes u K[X]/pK[X]\{} existiert ein v K[X]/pK[X] mit uv =. Sei u K[X] beliebig mit p u. Dann gilt zunächst gcd(u, p) =, denn wäre gcd(u, p) = lc(p) p, so wäre p u, was ausgeschlossen ist, und wäre < deg(gcd(u, p)) < deg(p), so wäre gcd(u, p) ein echter Teiler von p, im Widerspruch zur Irreduzibilität von p. Es bleibt also nur deg(gcd(u, p)) = und also gcd(u, p) =. Nach Satz 72 gibt es nun v, s K[X] mit = vu + sp, d.h. p uv. 3-8 (2) (3). Nach Satz 2 gilt in jedem Körper K die Formel a, b K : ab = a = b =. Daraus folgt die Behauptung. 59

160 (3) (). Seien u, v K[X] mit p = uv. Zu zeigen: u K oder v K. Mit p = uv gilt insbesondere p uv. Nach Voraussetzung gilt p u oder p v, damit deg(u) deg(p) oder deg(v) deg(p). Wegen deg(p) = deg(u) + deg(v) muss gelten deg(p) = deg(u) (und dann deg(v) =, also v K) oder deg(p) = deg(v) (und dann deg(u) =, also u K). 3-4 Beispiel.. p = X 2 2 ist irreduzibel in Q[X]. Betrachte die Körper K = Q[X]/pQ[X] und K 2 = Q( 2) = {a+b 2 : a, b Q} R. Diese beiden Körper sind auch Q-Vektorräume. Eine Basis von K ist {[], [X] } und eine Basis von K 2 ist {, 2}. Die beiden Vektorräume sind isomorph, ein Isomorphismus ist h: K K 2 mit h([] ) = und h([x] ) = 2. Dieser Vektorraum-Homomorphismus ist auch mit der Multiplikation verträglich, d.h. es gilt h(ab) = h(a)h(b) für alle a, b K. Es sind also K und K 2 nicht nur als Vektorräume sondern auch als Körper isomorph, und im Körper K spielt das Element [X] die Rolle, die 2 in K 2 spielt. Insbesondere gilt [X] 2 = [X 2 ] = [X 2 (X 2 2)] = [2]. Im gleichen Sinn sind R[X]/(X 2 + )R[X] und C im wesentlichen die gleichen Körper. 2. Jedes lineare Polynom ax b K[X] mit a ist irreduzibel, aber die zugehörigen Körper K[X]/(aX b)k[x] sind nicht besonders interessant. Sie sind isomorph zum ursprünglichen Körper K. 3. Das Polynom p = X 4 + 3X + 4 ist in Z 5 [X] irreduzibel. Der Körper K = Z 5 [X]/pZ 5 [X] hat als Z 5 -Vektorraum die Basis {[], [X], [X 2 ], [X 3 ] }, ist als solcher also isomorph zu Z 4 5. Also ist K ein endlicher Körper mit 54 = 625 Elementen. Beachten Sie, dass dieser Körper etwas anderes ist als Z 625. Da 625 keine Primzahl ist, ist Z 625 gar kein Körper. 3-8 Satz 74. Für jedes p K[X] \ {} gibt es ein c K \ {} und normierte, irreduzible, paarweise verschiedene p,..., p m K[X] sowie e,..., e m N \ {} mit p = c p e pem m Die Menge {(p, e ),..., (p m, e m )} und das Element c sind eindeutig durch p bestimmt. Beweis. Mit der Wahl von c = lc(p) kann man o.b.d.a. annehmen lc(p) =. Existenz: Induktion nach deg(p). Induktionsanfang: Ist deg(p) =, so ist p = p bereits irreduzibel. Induktionsvoraussetzung: Der Satz gilt für alle Polynome p mit deg(p) < n. Induktionsschluss: Sei p K[X] mit deg(p) = n. Ist p irreduzibel, so ist p = p eine Darstellung der gewünschten Form. Ist p nicht irreduzibel, so gibt es nach Def. 52 eine Zerlegung p = uv mit u, v K[X]\K, d.h. mit deg(u), deg(v) >, d.h. mit deg(u), deg(v) < deg(p) = n. Nach Induktionsvorraussetzung haben u und v Zerlegungen der gewünschten Form. Deren Produkt ist eine Zerlegung von p. Eindeutigkeit: Es seien p = p e pem m = pẽ pẽ m m zwei Zerlegungen von p. Da die p i irreduzibel sind, muss es nach Satz 73 zu jedem i {,..., m} ein j {,..., m} geben mit p i p j. Da aber auch die p j irreduzibel sind und sowohl die p i als auch die p j normiert sind, muss 6

161 gelten p i = p j. Daraus folgt {p,..., p m } { p,..., p m }, und aus Symmetriegründen sogar die Gleichheit dieser Mengen. Da für jedes Polynom u offenbar genau ein e N existiert mit u e p und u e+ p, und da die p i und die p j als paarweise verschieden angenommen sind, sind auch die Exponenten eindeutig bestimmt. Definition 53. Ein Körper K heißt algebraisch abgeschlossen (engl. algebraically closed), falls für jedes irreduzible Polynom p K[X] gilt deg(p). 3-4 Beispiel.. Q und R und endliche Körper sind nicht algebraisch abgeschlossen. 2. Man kann zeigen, dass C algebraisch abgeschlossen ist. Das ist der Fundamentalsatz der Algebra. Es gilt also: jedes p C[X] \ C lässt sich schreiben als p = c (X ξ ) e (X ξ m ) em für gewisse e,..., e m N \ {} und ξ,..., ξ m C. Anders gesagt: Jedes Polynom in C[X] \ C hat mindestens eine Nullstelle in C. Die entsprechende Aussage mit R anstelle von C ist falsch. Man verwendet auch die Sprechweise jedes Polynom p C[x] zerfällt in Linearfaktoren. 3. Man erhält als Folgerung aus dem Fundamentalsatz der Algebra auch eine Charakterisierung der irreduziblen Polynome in R[X]. Es zeigt sich, dass dies genau die Polynome vom Grad sowie die Polynome vom Grad 2 sind, die keine reelle Nullstelle haben. Letztere sind bekanntlich die Polynome p = p + p X + p 2 X 2 mit p 2 und 4p p 2 > p 2. Um das zu sehen, verwendet man die Konjugation komplexer Zahlen: für z = x+iy C mit x, y R definiert man z = x iy. Man rechnet leicht nach, dass dann z + z 2 = z + z 2 und z z 2 = z z 2 für alle z, z 2 C gilt, sowie z = z z R für alle z C. Für Polynome p R[X] C[X] folgt daraus p( z) = p(z) für jedes z C. Insbesondere gilt also: Wenn z C eine Nullstelle von p ist, dann auch z. Ein Polynom p R[X] kann also reelle und nicht-reelle komplexe Nullstellen haben, aber die nicht-reellen Nullstellen treten immer als Paare zueinander konjugierter Zahlen z, z auf. Aufgefasst als Element von C[X] lässt sich p also faktorisieren in der Form p = c(x ξ ) e (X ξ m ) em (X ζ ) ɛ (X ζ ) ɛ (X ζ n ) ɛn (X ζ n ) ɛn für gewisse ξ,..., ξ m R und ζ,..., ζ n C \ R und e,..., e m, ɛ,..., ɛ n N \ {}. Fasst man schließlich die jeweils zueinander gehörenden Faktoren (X ζ)(x ζ) zusammen, so erhält man X 2 (ζ + ζ)x +ζ ζ. Das ist ein Polynom in R[X], denn ist ζ = u+iv für reelle u, v, so sind ζ + ζ = (u + iv) + (u iv) = 2u und ζ ζ = (u + iv)(u iv) = u 2 i 2 v 2 = u 2 + v 2 beide reell. Damit ist gezeigt, dass R zwar nicht algebraisch abgeschlossen ist, dass sich aber jedes p R[X] schreiben lässt als ein Produkt von Polynomen in R[X] vom Grad höchstens 2. 6

162 Die irreduziblen Polynome in Q[X] lassen sich nicht so leicht charakterisieren. Man kann aber zeigen, dass es für jedes n N \ {} ein irreduzibles Polynom p Q[X] from Grad n gibt. Zum Beispiel ist X n 5 für jedes n N \ {} irreduzibel als Element 3-8 von Q[X]. Zur Berechnung der Zerlegung eines gegebenen Polynoms p Q[X] in irreduzible Faktoren gibt es Algorithmen. Wie diese funktionieren, wird in Vorlesungen über Computeralgebra erklärt. Eine Zahl z C heißt algebraisch, falls es ein Polynom p Q[X] \ {} gibt, so dass z eine Nullstelle von p ist (wobei p als Polynom in C[X] aufgefasst wird). Zahlen, die nicht algebraisch sind, nennt man transzendent. Zum Beispiel sind 2 und i (offensichtlich) algebraisch und π und e sind das ist nicht offensichtlich transzendent. Die Menge Q C aller algebraischen Zahlen ist also eine echte Teilmenge von C. Man kann zeigen, dass diese Teilmenge einen algebraisch abgeschlossenen Körper bildet. C R Q Q In einem bestimmten Sinn ist Q der kleinste algebraisch abgeschlossene Körper, der Q enthält, und C ist der kleinste algebraisch abgeschlossene Körper, der R enthält. In weiterführenden Vorlesungen über Algebra werden Sie erfahren, dass es zu jedem Körper K einen solchen kleinstmöglichen algebraisch abgeschlossenen Körper K gibt, der K enthält, und dass dieser im wesentlichen eindeutig durch K bestimmt ist. Man nennt K den algebraischen Abschluss (engl. algebraic closure) von K. 26 Diagonalisierbarkeit Definition 54. Sei V ein K-Vektorraum, h End(V ) und λ K.. v V heißt Eigenvektor (engl. eigenvector) von h zu λ, falls h(v) = λv gilt. 2. λ heißt Eigenwert (engl. eigenvalue) von h, falls es einen von verschiedenen Eigenvektor zu λ gibt. Im Fall V = K n und h: V V, h(v) = Av für eine Matrix A K n n spricht man auch von den Eigenvektoren bzw. Eigenwerten von A und meint damit die Eigenvektoren bzw. Eigenwerte von h. Beispiel.. v = ist Eigenvektor zu jedem λ K, denn es gilt h() = λ =. Ist v, so kann v nicht Eigenvektor für zwei verschiedene λ, λ 2 K sein, denn aus h(v) = λ v und h(v) = λ 2 v folgt λ v = λ 2 v, also (λ λ 2 )v = und daraus wegen Teil 4 von Satz 35 λ = λ 2. 62

163 2. K ist genau dann ein Eigenwert von h, wenn ker h 6= {} ist. Die Vektoren in ker h sind genau die Eigenvektoren zu λ =, denn es gilt ja v ker h h(v) = = v. λ λ2 3. Ist A = Kn n eine Diagonalmatrix, so sind offenbar λ,..., λn... λn Eigenwerte von A und die Einheitsvektoren ei sind Eigenvektoren zu λi : Fu r jedes i gilt Aei = λi ei Betrachte A = R2 2. Diese Matrix hat zwei Eigenwerte, na mlich 2 und 4. 3 Ein Eigenvektor zum Eigenwert 2 ist v2 = : 3 2 = 3 2 : Ein Eigenvektor zum Eigenwert 4 ist v4 = 3 4 =. 3 4 Die Matrix A transformiert die Ebene R2, indem sie in Richtung ein Streckung um den Faktor 2 und in Richtung eine Streckung um den Faktor 4 bewirkt: Ae2 = (, 3) 2v2 e2 v2 e Ae = (3, ) v4 A 4v4 Wa hrend die Standardkoordinatenrichtungen e und e2 von A auf andere Richtungen abgebildet werden, zeigen v2 und v4 nach Anwendung von A immer noch in die gleiche Richtung wie vorher. 63

164 5. Die Matrix A = hat nur einen Eigenwert, na mlich λ =. Ein zugeho riger Eigenvektor ist v =. A v Av = v In diesem Fall wird jeder Vektor v R2 \ hv i von A auf einen Vektor abgebildet, der in eine andere Richtung als v zeigt Sei V = C (R, R) der R-Vektorraum aller beliebig oft differenzierbaren Funktionen und h : V V, h(f ) = f der Ableitungsoperator. Dann ist jedes λ R ein Eigenwert von h, und ein zu λ passender Eigenvektor ist die Funktion f : R R, f (x) = eλx, denn fu r diese gilt ja f (x) = λf (x). Satz 75. Sei A Kn n.. Sei λ K und sei Eλ = { v Kn : Av = λv } die Menge aller Eigenvektoren von A zu λ. Dann gilt: Eλ = ker(a λin ). Insbesondere bildet die Menge aller Eigenvektoren zu einem fixen λ K stets einen Untervektorraum von Kn (Erga nzung zum Satz 26) A ist genau dann invertierbar, wenn kein Eigenwert von A ist. 3. Ist A invertierbar, so ist λ K genau dann ein Eigenwert von A, wenn /λ ein Eigenwert von A ist. Beweis.. Fu r alle v Kn gilt v Eλ Av = λv Av λv = (A λin )v = v ker(a λin ). 2. Folgt aus Teil und Satz Fu r alle v Kn gilt Av = λv v = A λv v = λa v λ v = A v A v = λ v. 64

165 Beispiel. Betrachte A = ( ) 3 Q Für λ = 2 haben wir A 2I 2 = ( ) + ( ) und daher E 2 = ( ). 2. Für λ = 4 haben wir ( ) ( ) A 4I 2 = + ( ) und daher E 4 = ( ). 3. λ = 3 ist kein Eigenwert von A, denn wegen haben wir E 3 = {}. A 3I 2 = ( ) ( ) ( ) ( ) Die Eigenwerte von A K n n sind nach Satz 75 genau jene λ K, für die ker(a λi n ) nicht {} ist. Nach Satz 3 sind dies genau jene λ K, für die det(a λi n ) = ist. Man kann deshalb die Eigenwerte einer gegebenen Matrix A K n n dadurch bestimmen, dass man zunächst das Polynom det(a X I n ) K[X] ausrechnet und dann dessen Nullstellen bestimmt. Beispiel.. A = ( ) 3. Wegen det(a XI 2 ) = 3 X 3 X = (3 X) 2 ( ) 2 hat A genau zwei Eigenwerte, nämlich 2 und 4. ( ) 2. A =. Hier gilt = X 2 6X + 9 = (X 2)(X 4) det(a XI 2 ) = X X = ( X)2. Man sagt in so einem Fall, dass λ = ein doppelter Eigenwert von A ist. 65

166 2 3. A = 3. Hier gilt 2 X det(a XI 3 ) = 3 X X = (2 X) 3 X X = (2 X) ( (3 X)( X) + ) = (2 X) 3. In diesem Fall ist λ = 2 ein dreifacher Eigenwert von A. Es gilt E 2 =,. Definition 55. Sei A K n n.. χ := det(a XI n ) K[X] heißt das charakteristische Polynom von A. 2. Ist χ das charakteristische Polynom von A und λ K eine Nullstelle von χ der Vielfachheit e, so heißt e die Vielfachheit des Eigenwerts λ von A. 3. E λ = ker(a λi n ) heißt der Eigenraum (engl. eigenspace) von A zu λ. Für ein vollständig faktorisiertes normiertes Polynom χ = (λ X) (λ n X) (wobei die λ,..., λ n nicht notwendigerweise paarweise verschieden sein müssen) erhält man durch Ausmultiplizieren χ = ( X) n + (λ + + λ n )( X) n + + (λ λ n ). Für das charakteristische Polynom χ einer Matrix A = ((a i,j )) n i,j= Kn n gilt χ = ( X) n + (a, + + a n,n )( X) n + + det(a). Es gilt also: die Summe der Diagonalelemente von A ist genau die Summe der Eigenwerte von A (bei Berücksichtigung der Vielfachheiten), und die Determinante von A ist genau das Produkt der Eigenwerte von A (ebenfalls bei Berücksichtigung der Vielfachheiten). Die Summe der Diagonalelemente von A nennt man die Spur (engl. trace) von A. Wenn das charakteristische Polynom χ einer Matrix A K n n nicht in Linearfaktoren zerfällt, dann kann man sich K durch einen größeren algebraisch abgeschlossenen Körper K ersetzt vorstellen. Dort zerfällt χ dann sicher in Linearfaktoren, und A hat in diesem Körper K genau n (nicht notwendig paarweise verschiedene) Eigenwerte, deren Summe die Spur und deren Produkt die Determinante von A ist. 4-5 Satz 76. Seien A K n n und χ K[X] das charakteristische Polynom von A. Dann gilt:. Ein Element λ K ist genau dann ein Eigenwert von A, wenn λ eine Nullstelle von χ ist. 2. Ist T K n n invertierbar, so ist χ auch das charakteristische Polynom von T AT Die Dimension eines Eigenraums E λ von A ist höchstens so groß wie die Vielfachheit des Eigenwerts λ. 66

167 Beweis.. Folgt direkt aus der vorangegangenen Diskussion. 2. Es gilt det(t AT XI n ) = det(t AT XT T ) = det(t (A XI n )T ) = det(t ) det(a XI n ) det(t ) = det(a XI n ). 3. Zu zeigen: gibt es d linear unabhängige Eigenvektoren von λ, so gilt (X λ) d χ. Seien also v,..., v d K n linear unabhängig mit Av i = λv i für i =,..., d. Wähle w d+,..., w n K n so, dass {v,..., v d, w d+,..., w n } eine Basis von K n ist. Nach Satz 43 ist das möglich. Setze T = (v,..., v d, w d+,..., w n ) K n n und B = T AT. Nach Teil 2 hat B das gleiche charakteristische Polynom wie A. Für i =,..., d gilt Av i = λv i, also T Av i = λt v i, also T AT T v i = λt v i, also Bu i = λu i für u i = T v i. Nach Definition von T ist u i = e i gerade der i-te Einheitsvektor. Deshalb hat B die Form λ..... B = λ..... Offensichtlich teilt (X λ) d das charakteristische Polynom von B, und damit auch das von A. Definition 56.. Zwei Matrizen A, B K n n heißen (zueinander) ähnlich, (engl. similar) falls es eine Matrix T GL(n, K) gibt mit B = T AT. Notation: A B. 2. Eine Matrix A K n n heißt diagonalisierbar, falls es eine Diagonalmatrix d d 2 D = diag(d,..., d n ) :=... dn gibt mit A D. 67

168 Satz 77. ist eine Äquivalenzrelation. Beweis. Übung. Satz 78. Sei A K n n. Das charakteristische Polynom χ K[X] von A habe eine Darstellung 3- χ = (λ X) µ (λ k X) µ k für gewisse µ,..., µ k N \ {} und paarweise verschiedene λ i K. Dann sind folgende Aussagen äquivalent:. A ist diagonalisierbar 2. dim E λi = µ i für i =,..., k 3. K n = E λ E λk 4. K n hat eine Basis, die nur Eigenvektoren von A enthält λ I µ λ 2 I µ2 5. A..., wobei λ i I für einen Matrix-Block der Größe µi λ k I µk µ i µ i steht, bei dem auf der Diagonale überall λ i und sonst überall steht. Beweis. Wir zeigen () (4) (5) () und (2) (3) (4) (2) () (4). A ist diagonalisierbar, also existiert T GL(n, K) mit T AT = diag(d,..., d n ) für gewisse d,..., d n K. Da T invertierbar ist, bilden die Spalten von T nach Satz 26 eine Basis von K n. Ist v = T e i die i-te Spalte von T, so ist T AT e i = d i e i, also AT e i = d i T e i, also Av = d i v. Da i beliebig war, ist jede Spalte von T ein Eigenvektor von A. (4) (5). Sei {v,..., v n } K n eine Basis bestehend aus Eigenvektoren von A. Dann ist T = (v,..., v n ) K n n invertierbar und für B = T AT und beliebiges i {,..., n} gilt Be i = T AT e i = T Av i = T φv i = φt v i = φe i, wobei φ {λ,..., λ k } der Eigenwert zu v i sei. Damit ist gezeigt, dass T AT eine Diagonalmatrix ist, wo auf der Diagonale nur Eigenwerte von A stehen. Dass dabei jeder Eigenwert mit der richtigen Vielfachheit auftreten muss, folgt aus Teil 2 von Satz 76. Die Form aus dem Satz ergibt sich schließlich, indem man T durch T P für eine geeignete Permutationsmatrix P ersetzt. (5) (). Klar. (2) (3). Für i j gilt E λi E λj = { x K n : Ax = λ i x = λ j x } { x K n : (λ i λ j ) x = } = {}. }{{} Damit ist die Summe direkt und wegen Satz 44 folgt dim(e λ E λk ) = dim(e λ )+ +dim(e λk ) = µ + +µ k = n, weil deg(χ) = n. Wegen Satz 42 folgt die Behauptung. 68

169 (3) (4). Klar. (4) (2). Nach Satz 76 gilt auf jeden Fall dim E λi µ i für alle i. Außerdem gilt natürlich immer dim E λi. Wäre also dim E λi µ i für wenigstens ein i, so wäre dim E λi < µ i und dim(e λ + + E λk ) < n. Nach Voraussetzung gibt es aber eine Basis aus lauter Eigenvektoren. Es müsste also einen Eigenvektor v geben, der nicht in E λ + + E λk liegt. Der zugehörige Eigenwert kann dann keines der λ,..., λ k sein, im Widerspruch zu Satz 76. Beispiel. ( ) 3. A = hat die beiden Eigenwerte 2 und 4. Ein Eigenvektor zum Eigenwert 2 3 ist ( ( ) ) ( und ein Eigenvektor zu 4 ist ). Für T = gilt ( T 2 AT = Besser merken kann man sich die Basiswechselgleichung vielleicht in der Form AT = T D, 5-6 wobei D für die Diagonalmatrix steht, denn hier wird links jede Spalte von T mit der Matrix A multipliziert, und rechts jede Spalte von T mit dem entsprechenden Eintrag der Diagonalmatrix. Diese Darstellung entspricht also der üblichen Gleichung Av = λv aus der Definition von Eigenwert und Eigenvektor. ( ) 2. A = ist nicht diagonalisierbar. Zwar ist λ = ein doppelter Eigenwert, aber dim E = < 2, und das reicht nicht Für A = 2 gilt det(a XI 3 ) = ( X)(2 X) 2. Damit ist ein einfacher 3 und 2 ein doppelter Eigenwert von A. Die Eigenräume lauten 2 E = und E 2 =,, ). 4 und wegen dim E + dim E 2 = + 2 = 3 ist A diagonalisierbar. In der Tat gilt = Wenn A diagonalisierbar ist, kann man leicht A m für große m N ausrechnen, denn in diesem Fall gibt es ja eine invertierbare Matrix T und eine Diagonalmatrix D, so dass A = T DT. Für beliebiges m N gilt dann 3- A m = (T DT ) m = T DT T DT T DT = T D m T, 69

170 und das Potenzieren von Diagonalmatrizen ist einfach: diag(λ,..., λ n ) m = diag(λ m,..., λ m n ). ( ) Betrachte als konkretes Beispiel die Matrix A = R 2 2. Für diese Matrix gilt ( ) ( ) Fn Fn+ A = = F n+ F n + F n+ ( Fn+ F n+2 für alle n N, wobei F n für die nte Fibonacci-Zahl steht. Wegen F = und F = gilt also die Formel ( ) ( ) Fn = A n F n+ für alle n N. Die Matrix A ist diagonalisierbar, es gilt Daraus folgt ( Fn F n+ ) = A = ( 5 ( ) ) ( ( ) ( 5 2 ) ). ) n ( 5 ) ( ) n ( ) für alle n N, und schließlich die sogenannte Formel von Binet: F n = ( ( + 5 ) n ( 5 ) ) n (n N) Annihilierende Polynome Definition 57. Sei p = p + p X + + p d X d K[X].. Für α K sei p(α) := p + p α + + p d α d K. 2. Für A K n n sei p(a) := p I n + p A + + p d A d K n n. 3. Ist V ein K-Vektorraum und h End(V ), so sei p(h) := p id V +p h + + p d h d End V Für q K[X] sei p(q) := p + p q + + p d q d K[X]. Allgemeiner: Ist R zugleich ein Ring mit Eins und ein K-Vektorraum, und zwar so, dass die Ring- Addition mit der Vektor-Addition übereinstimmt und die Skalarmultiplikation mit der Ring-Multiplikation durch die Regel α K a, b R : (αa)b = α(ab) = a(αb) verbunden ist, so nennt man R eine K-Algebra. Ist R eine solche K-Algebra, so lässt sich jedes Polynom p K[X] in natürlicher Weise als eine Funktion R R interpretieren. Wir wollen aber weiterhin die 7

171 Polynome selbst als algebraische Objekte auffassen, die von diesen Funktionen zu unterscheiden sind. Insbesondere ist für ein Polynom p K[X] a priori kein Definitionsbereich festgelegt. Die saubere Unterscheidung ist angebracht, weil auf Polynome unter Umständen andere Aussagen zutreffen als auf die zugehörigen Polynomfunktionen. Betrachtet man zum Beispiel das Polynom X 2 + X Z 2 [X], so ist dies offensichtlich verschieden vom Nullpolynom Z 2 [X], während die zugehörige Polynomfunktion Z 2 Z 2, x x 2 + x identisch zur Nullfunktion ist (weil 2 + = + = und 2 + = in Z 2 gilt). ( ) 2 Beispiel. Sei p = 2 + 3X + X 2 und A =. Dann ist 3 4 und ( ) ( ) A = = p(a) = 2I 2 + 3A + A 2 ( ) ( ) = ( 7 ) 5 22 ( ) 7 = 5 22 ( ) Satz 79. Sei V ein K-Vektorraum und seien p, q K[X].. Für alle h End(V ) gilt (p + q)(h) = p(h) + q(h) und (pq)(h) = p(h) q(h). 2. Für alle A K n n gilt (p + q)(a) = p(a) + q(a) und (pq)(a) = p(a)q(a). 3. Für alle A K n n und alle T GL(n, K) gilt p(t AT ) = T p(a)t. Beweis. Übung. Satz 8. Sei V ein K-Vektorraum mit dim V = n <, und sei h End(V ). Dann existiert ein p K[X] \ {} mit p(h) =. Beweis. Nach Satz 59 ist End(V ) ein K-Vektorraum der Dimension n 2. Darin müssen je n 2 + viele Elemente linear abhängig sein (Satz 4). Insbesondere müssen id V, h, h 2,..., h n2 linear abhängig sein, d.h. es gibt p,..., p n 2 K, von denen nicht alle Null sind, so dass p id V + + p n 2h n2 =. Es ist also p = p + p X + + p n 2X n2 K[X] \ {} ein Polynom mit der gewünschten Eigenschaft. ( ) 2 Beispiel. Betrachte den Endomorphismus h: R 2 R 2, h(x) = Ax mit A =. Laut 3 4 dem Beweis des vorherigen Satzes gibt es ein Polynom p vom Grad höchstens 4 mit p(a) =. 3-4 Tatsächlich gibt es sogar ein Polynom von Grad 2. Um dieses zu finden, macht man einen Ansatz mit unbestimmten Koeffizienten p, p, p 2. Die Forderung ( ) ( ) ( ) 2 7 p + p + p ( ) p + p = + 7p 2 p + 2p + p 2 p + 3p + 5p 2 p + 4p + 22p 2! = ( ) 7

172 4- führt durch Nullsetzen der vier Matrixeinträge auf das homogene lineare Gleichungssystem p 3 5 p =. p Die Lösungsmenge dieses Gleichungssystems ergibt sich zu 5, also ist p = 2+5X X 2 ein Polynom mit der gewünschten Eigenschaft p(h) =. Ein Polynom p K[X] mit p(h) = bzw. p(a) = heißt ein annihilierendes Polynom von h bzw. A. Mit solchen Polynomen kann man die Berechnung von q(a) für Polynome q von hohem Grad erheblich vereinfachen. Schreibe dazu q = quo(q, p)p + rem(q, p) und beachte, dass quo(q, p)p ausgewertet bei A Null ist, wenn p ein annihilierendes Polynom für A ist. Es gilt also q(a) = rem(q, p)(a), und egal wie groß der Grad von q war, der Grad von rem(q, p) ist immer kleiner als deg(p). Für die spezielle Wahl q = X m ergibt sich eine weitere effiziente Methode zur Berechnung von Potenzen von Matrizen. Diese Methode funktioniert auch für Matrizen, die nicht diagonalisierbar sind. Sie liefert dabei allerdings keine allgemeinen Ausdrücke für die Einträge von A m, wenn m eine Variable ist. Wegen Teil 3 von Satz 79 gilt p(h) = für ein p K[X] und ein h End(V ) genau dann wenn für jede Basis B von V gilt, dass p(a) = für die Abbildungsmatrix von h bezüglich B und B. Es ist deshalb für die folgenden Überlegungen relativ egal, ob wir über Endomorphismen oder quadratische Matrizen sprechen. Satz 8. Sei A K n n. Dann gilt:. Sind p, q K[X] zwei annihilierende Polynome von A, d.h. gilt p(a) = q(a) =, und ist g = gcd(p, q), so gilt auch g(a) =. 2. Es sei M K[X] die Menge aller p K[X] \ {} mit p(a) = für die es kein q K[X] \ {} mit deg(q) < deg(p) und q(a) = gibt. Dann gibt es in M genau ein normiertes Polynom. 3. Ist m K[X] das eindeutig bestimmte Polynom aus Teil 2, und ist p K[X] beliebig, so gilt p(a) = m p. Beweis.. Nach Satz 72 existieren Polynome u, v K[X] mit g = up + vq. Wegen Satz 79 folgt direkt g(a) = (up + vq)(a) = u(a)p(a) + v(a)q(a) =, weil nach Voraussetzung p(a) = q(a) = ist. 2. Nach Satz 8 gibt es überhaupt Polynome p K[X] \ {} mit p(a) =. Unter diesen muss es solche geben, für die der Grad minimal wird. Unter diesen wiederum muss dann wenigstens ein normiertes Polynom geben. Daraus folgt, dass M mindestens ein normiertes Polynom enthält. Es bleibt zu zeigen, dass M höchstes ein normiertes Polynom enthält. Gäbe es zwei verschiedene normierte Polynome m, m 2 M, so wäre m m 2 und wegen lc(m ) = lc(m 2 ) = wäre deg(m ) = deg(m 2 ) > deg(m m 2 ). Mit m (A) = m 2 (A) = gilt aber auch (m m 2 )(A) =, d. h. m m 2 wäre ein annihilierendes Polynom von A von kleinerem Grad als m, im Widerspruch zur Definition von M. 72

173 3. Sei p K[X] beliebig und r = rem(p, m). Dann gilt r = p qm für ein bestimmtes q K[X] und deshalb p(a) = r(a) (weil ja m(a) = ist). Ist p(a) =, so ist r(a) = p(a) =. Da deg(r) < deg(m) und m von allen von Null verschiedenen annihilierenden Polynomen von A minimalen Grad hat, muss r = gelten. Daraus folgt m p. Aus m p folgt p = qm für ein q K[X], und daraus p(a) = q(a)m(a) =. ( ) 2 Beispiel. Für A = gilt 3 4 ( ) ( ) 2 p + p = p 3 4 = p =. Davon kann man sich durch Lösen eines geeigneten linearen Gleichungssystems überzeugen. Das Polynom m = X 2 5X + 2 aus dem vorherigen Beispiel hat also minimalen Grad und es gilt { p K[X] : p(a) = } = { p K[X] : m p }. Definition 58. Seien A K n n und m K[X] \ {} wie im Teil 2 von Satz 8. Dann heißt m das Minimalpolynom (engl. minimal polynomial) von A. Beispiel.. Das Minimalpolynom der Nullmatrix K n n ist K[X]. 2. Das Minimalpolynom der Identitätsmatrix I n K n n ist X K[X]. ( ) 3. Das Minimalpolynom von A = Q 2 2 ist (X ) 2. Zum Beweis rechnet man zunächst nach, dass m = (X ( ) ) 2 ein annihilierendes Polynom von A ist. In der Tat gilt m(a) = A 2 2A + I 2 =. Um zweitens zu zeigen, dass es kein annihilierendes Polynom von kleinerem Grad gibt, macht man einen Ansatz für ein solches Polynom und löst ein lineares Gleichungssystem für die Koeffizienten. Damit etwa p = p + p X ein annihilierendes Polynom von A ist, muss gelten ( ) ( ) ( ) p + p p + p = p = p + p ( ), also p = p + p =, und das ist offensichtlich nur dann der Fall, wenn p = p = ist. Es gibt also kein annihilierendes Polynom von A vom Grad oder. Damit ist gezeigt, dass m = (X ) 2 das Minimalpolynom von A ist. 4. Ist A K n n eine gegebene Matrix, so gibt es nach Satz 8 ein annihilierendes Polynom vom Grad n 2. Alle annihilierenden Polynome vom Grad n 2 bilden einen K- Vektorraum, für den man sich durch Ansatz und Koeffizientenvergleich und Lösen eines linearen Gleichungssystems eine Basis verschaffen kann. Schreibt man die Koeffizienten 73

174 der Basispolynome in die Zeilen einer Matrix und berechnet davon die Treppennormalform, so erscheinen die Koeffizienten des Minimalpolynoms als unterste Zeile in dieser Treppenform. Alternativ kann man auch für n =, 2, 3,... nacheinander durch Lösen eines linearen Gleichungssystems überprüfen, ob es ein von Null verschiedenes annihilierendes Polynom vom Grad n gibt. Das erste, das man dabei findet, ist (ein K-Vielfaches) des Minimalpolynoms. ( ) 2 Beispiel: Für die Matrix A = aus dem vorherigen Beispiel ist {X X 2} eine Basis des Vektorraum aller annihilierenden Polynome vom Grad 2. Insbesondere ist X 2 5X 2 das Minimalpolynom von A. Hätten wir stattdessen einen Ansatz für ein annihilierendes Polynom vom Grad 4 gemacht, so hätten wir möglicherweise die Basis {X 4 +X 2 5X 56, X 4 +X 3 72X 64, X 4 45X 54} gefunden. Daraus darf man nicht schließen, dass das Minimalpolynom den Grad vier hat. Stattdessen folgt aus , dass das Minimalpolynom X 2 5X 2 ist. Satz 82. (Ergänzung zum Satz 26) Sei A K n n und m = m + m X + + m d X d K[X] das Minimalpolynom von A. Dann gilt: A ist genau dann invertierbar wenn m, und in diesem Fall ist A = m ( m + m 2 A + + m d A d ). 3-3 Beweis. A ist invertierbar. Wäre m =, so würde aus m A + + m d A d = durch Multiplikation beider Seiten mit A (von rechts oder links) folgen m + + m d A d =, im Widerspruch zur Minimalität von m. m. Betrachte B = m (m + m 2 A + + m d A d ). Dann gilt AB = BA = m ( m A + m 2 A m d A d) = m ( m A + m 2 A m d A d m(a) ) = m ( m I n ) = In. Damit ist A invertierbar und auch die behauptete Formel für die Inverse ist bewiesen. 28 Der Satz von Cayley-Hamilton Satz 83. Sei A K n n und m K[X] das Minimalpolynom von A. Dann gilt: λ K ist genau dann ein Eigenwert von A, wenn m(λ) = ist. 74

175 Beweis. Es sei m = m + m X + + m d X d das Minimalpolynom von A und p = m + m (X + λ) + + m d (X + λ) d. Dann ist p annihilierendes Polynom von A λi n, denn p(a λi n ) = m(a) =. Es ist sogar das Minimalpolynom von A λi n, denn gäbe es annihilierendes Polynom q = q + q X + + q d X d kleineren Grades von A λi n, so wäre q(x λ) = q +q (X λ)+ +q d (X λ) d ein von Null verschiedenes annihilierendes Polynom von A mit einem kleineren Grad als m. Das steht im Widerspruch zur Minimalität von m. Nun gilt: λ ist Eigenwert von A Satz 75 Satz 82 ker(a λi n ) {} p() = m(λ) =. Der Satz sagt, dass das Minimalpolynom dieselben Nullstellen hat wie das charakteristische Polynom aus Definition 55. Daraus folgt aber nicht, dass auch die Polynome identisch sind. Zum einen wird nichts ausgesagt über die irreduziblen Faktoren höheren Grades, und zum anderen können sich die Vielfachheiten der Nullstellen in den beiden Polynomen unterscheiden. Der Satz von Cayley-Hamilton, um den es in diesem Abschnitt geht, besagt, dass das charakteristische Polynom einer Matrix A immer auch ein annihilierendes Polynom für A ist. Nach Satz 8 Teil 3 bedeutet das, dass das Minimalpolynom ein Teiler des charakteristischen Polynoms ist. Damit müssen alle irreduziblen Faktoren des Minimalpolynoms auch im charakteristischen Polynom vorkommen, und die Vielfachheit eines jeden irreduziblen Faktors des charakteristischen Polynoms muss mindestens so groß sein wie die Vielfachheit des entsprechenden Faktors des Minimalpolynoms. Außerdem folgt aus dem Satz, dass das Minimalpolynom einer Matrix A K n n höchstens den Grad n haben kann, während Satz 8 nur die gröbere Gradschranke n 2 liefert. Bevor wir zum Satz von Cayley-Hamilton kommen, beweisen wir zwei Hilfssätze, die wir in seinem Beweis verwenden werden. Satz 84. Sei a = a + a X + + a d X d + X d K[X] und A = K d d. a a a d 2 a d Dann ist ( ) d a das charakteristische Polynom von A. Beweis. Wir zeigen durch Induktion nach d die folgende etwas allgemeinere Aussage: für alle a,..., a d K(X) gilt X X = ( ) d (a + a X + + a d X d + X d ). X a a a d 2 a d X Für d = ist das offensichtlich richtig. 75

176 Induktionsschluss d d: X + X X X a a a d 2 a d X X X = X a ( a a X ) a d 2 a d X X = ( X) X ( a a X ) a d 2 a d X = ( X)( ) d ( (a + a X ) + a 2 X + + a d X d 2 + X d ) = ( ) d (a + a X + + a d X d + X d ), wie gefordert. Dabei wurde im vorletzten Schritt die Induktionsannahme verwendet. Satz 85. Seien A K n n, B K m m, C K n m, und sei M = ( ) A C K (n+m) (n+m). B Dann gilt det(m) = det(a) det(b). Insbesondere ist das charakteristische Polynom von M das Produkt der charakteristischen Polynome von A und B. 3-6 Beweis. Die Aussage über die charakteristischen Polynome folgt direkt aus der behaupteten Determinatenformel und der Definition des charakteristischen Polynoms. Wir zeigen die Determinantenformel durch Induktion nach n. Schreibe A = ((a i,j )) n i,j=. Für n = ist nichts zu zeigen. Zum Induktionsschluss n n entwickeln wir die Determinante nach der ersten Spalte (vgl. Satz 33). Es bezeichne A (i) K (n ) (n ) die Matrix, die aus A entsteht, wenn man die i-te Zeile und die erste Spalte löscht und C (i) K (n ) m die Matrix, die aus C entsteht, wenn man die i-te Zeile löscht. Dann gilt A C B = a, A() C () B a 2, A(2) C (2) B ± + A ( )n a (n) n, B C (n) = a, det(a () ) det(b) a 2, det(a (2) ) det(b) ± + ( ) n a n, det(a (n) ) det(b) 76

177 = ( a, det(a () ) a 2, det(a (2) ) ± + ( ) n a n, det(a (n) ) ) det(b). }{{} =det(a) Dabei wird im zweiten Schritt die Induktionshypothese verwendet. Satz 86. (Cayley-Hamilton) Sei A K n n und sei χ K[X] das charakteristische Polynom von A. Dann gilt χ(a) =. Beweis. Betrachte den Homomorphismus h: K n K n, h(x) = Ax. Zu zeigen: χ(h) =, d.h. für alle x K n gilt χ(h)(x) =. Sei x K n beliebig. Dann gibt es ein maximales d N, für das x, h(x),..., h d (x) linear unabhängig sind. Dann sind x, h(x),..., h d (x) linear abhängig und es gibt u,..., u d K mit h d (x) = u x + u h(x) + + u d h d (x). Außerdem können wir b d+,..., b n K n so wählen, dass eine Basis von K n ist. B = {x, h(x),..., h d (x), b d+,..., b n } Die Abbildungsmatrix M von h bezüglich B und B hat die Form M = ( ) U V W mit U = K d d, V K d (n d), W K (n d) (n d). u u d Nach Teil 2 von Satz 76 haben M und A dasselbe charakteristische Polynom. Wegen Satz 84 ist ( ) d( X d u d X d u X u ) das charakteristische Polynom χ U von U und damit wegen Satz 85 ein Teiler von χ. Nach der Wahl von u,..., u d gilt χ U (h)(x) = und damit χ(h)(x) =, was zu zeigen war. Beispiel.. Für A = ( ) 2 gilt 3 4 χ = det(a XI 2 ) = X X = ( X)(4 X) 6 = X2 5X 2, 77

178 und in der Tat gilt A 2 5A 2I 2 = ( ) ( ) ( ) 2 = 2 ( ). In diesem Fall ist das charakteristische Polynom zugleich auch das Minimalpolynom von A. 2. Für A = I n K n n gilt det(a XI n ) = ( X) n. Das Minimalpolynom von A ist X Sei A = Das charakteristische Polynom von A lautet X 3 (X 2 65X 25). Das Minimalpolynom ist X(X 2 65X 25). 4. Die Vielfachheit von Faktoren im Minimalpolynom ist meistens eins. Aber nicht immer: Für ein beliebiges λ K betrachte die Matrix λ. λ A = K n n..... λ λ Das charakteristische Polynom von A ist (λ X) n. Nach dem Satz von Cayley-Hamilton muss das Minimalpolynom die Form (X λ) e für ein bestimmtes e {,..., n} haben. Tatsächlich gilt e = n. Um das zu sehen, überlegt man sich, wie die Potenzen A m von A aussehen. Induktiv zeigt man, dass all diese Potenzen die Form a m, λ m a m,2 λ m a m,n λ m n+ A m = a m, λ m am,2 λ m a m, λ m mit a m, a m,2 a ( m,k a m,m a m,m+ a m,m+2 a m,n m m ) k m haben. Dabei ist ( ) m k = m(m )(m k+) k! der Binomialkoeffizient. Die Einträge a m,i sind also genau jene Körperelemente, für die gilt (X + ) m = a m, X m + a m,2 X m + + a m,m+. 78

179 Jedenfalls enthält für jedes m < n die Matrix A m an der Stelle (, m + ) eine Eins, während bei allen Matrizen A,..., A m an dieser Stelle eine Null steht. Daraus folgt, dass A, A,..., A m für jedes m < n linear unabhängig sind. Daraus folgt schließlich, dass das Minimalpolynom (mindestens) den Grad n haben muss. λ 5. Für die Matrix A = λ λ (λ K wieder beliebig) lautet das charakteristische λ Polynom (λ X) 4. Das Minimalpolynom ist in diesem Fall (X λ) Invariante Unterräume Definition 59. Sei V ein K-Vektorraum und h: V V ein Endomorphismus. Ein Unterraum U V heißt h-invariant, falls h(u) U ist. V h h(v ) h(u) U Beispiel.. V und ker h und {} sind h-invariante Unterräume von V für jedes h: V V. 2. Ist λ ein Eigenwert von h: V V, dann ist E λ ein h-invarianter Unterraum von V. Allgemeiner: Sind λ,..., λ k paarweise verschiedene Eigenwerte von h und E λ,..., E λk die zugehörigen Eigenräume, so ist E λ E λk ein h-invarianter Unterraum von V. 3. Sei V = K[[X]] und h = d dx : V V die (formale) Ableitung (vgl. S. 6). Dann ist K[X] V ein h-invarianter Unterraum von V, weil die Ableitung jedes Polynoms wieder ein Polynom ist. Darüber hinaus ist für jedes fixe d N der Raum K[X] d aller Polynome vom Grad höchstens d ein h-invarianter Unterraum, weil die Ableitung den Grad eines Polynoms nicht erhöhen kann. Wir haben hier also eine Kette von ineinander enthaltenden h- invarianten Unterräumen {} K[X] K[X] 2 K[X] d K[X] K[[X]]. Natürlich gibt es auch Unterräume von K[[X]], die nicht h-invariant sind, zum Beispiel ist U = X 7 + X nicht h-invariant, weil h(x 7 + X) = 7X 6 + U. 79

180 4. Sei A = und h: Q 3 Q 3, h(x) = Ax. Da A nicht diagonalisierbar ist, 2 lässt sich Q 3 nicht als Summe von Eigenräumen schreiben. Die Eigenräume von A sind E = und E 2 =. Neben E und E 2 ist auch U =, ein h-invarianter Unterraum von V, und wir haben die Zerlegung Q 3 = U E 2. In diesem Sinn darf man sich unter dem Begriff des invarianten Unterraums eine Verallgemeinerung des Begriffs des Eigenraums vorstellen. Wenn h: V V ein Homomorphismus ist und U ein h-invarianter Unterraum von V, dann ist die Einschränkung h U : U V ein Homomorphismus mit im h U U. Es ist deshalb zulässig, den Bildbereich von h U auf U zu beschränken und h U als eine Abbildung von U nach U aufzufassen. Damit wird h U zu einem Endomorphismus. Satz 87. Sei V ein K-Vektorraum mit dim V = n <, und sei h: V V ein Endomorphismus. Dann sind folgende Aussagen äquivalent:. Es gibt zwei h-invariante Unterräume U, U 2 von V mit dim U, dim U 2 > und V = U U 2 2. Es gibt eine geordnete Basis B von V bezüglich der die Abbildungsmatrix von h die Form Beweis. {}}{ k }{{} für ein k {,..., n } hat. n k k n k () (2). Wähle eine geordnete Basis B = (b,..., b k ) von U und eine geordnete Basis B 2 = (b k+,..., b n ) von U 2 und setze B = (b,..., b k, b k+,..., b n ). Wegen U U 2 = V ist B eine Basis von V. Ist M die Abbildungsmatrix von h U bezüglich B und M 2 die Abbildungsmatrix von h U2 bezüglich B 2, dann ist ( ) M M = M 2 die Abbildungsmatrix von h bezüglich B. 8

181 (2) (). Sei B = (b,..., b k, b k+,..., b n ) die geordnete Basis, bezüglich der die Abbildungsmatrix von h die angegebene Form hat. Betrachte U = b,..., b k und U 2 = b k+,..., b n. Dann ist U U 2 = V, dim U = k >, dim U 2 = n k > und wegen = und = sind U und U 2 beide h-invariant. Satz 88. Sei V ein K-Vektorraum, h: V V ein Endomorphismus, p K[X]. Dann ist ker p(h) V ein h-invarianter Unterraum. Beweis. Zu zeigen: für alle x ker p(h) gilt h(x) ker p(h). Sei also x ker p(h). Dann gilt p(h)(x) =. Dann (h p(h))(x) =. Dann (Xp)(h)(x) =. Dann (px)(h)(x) =. Dann (p(h) h)(x) =. Dann p(h)(h(x)) =. Dann h(x) ker p(h). Beispiel. Sei V = C ([, ], R) der Vektorraum aller beliebig oft differenzierbaren Funktionen. Betrachte eine lineare Differentialgleichung mit konstanten Koeffizienten: c f(x) + c f (x) + + c r f (r) (x) = mit c,..., c r R. Eine Funktion f V ist offenbar genau dann eine Lösung dieser Gleichung, wenn f ker p( d dx ) für p = c + c X + + c r X r gilt. Der Satz besagt also, dass die Lösungsmenge einer lineare Differentialgleichung mit konstanten Koeffizienten abgeschlossen unter Ableitung ist. Satz 89. Seien V ein K-Vektorraum, h: V V ein Endomorphismus, p, q K[X] mit gcd(p, q) =. Dann gilt ker p(h) ker q(h) = {}. Beweis. Sei x ker p(h) ker q(h) beliebig. Zu zeigen: x =. Aus x ker p(h) ker q(h) folgt p(h)(x) = q(h)(x) =. Wegen Satz 79 folgt daraus für beliebige Polynome u, v K[X]. (up + vq)(h)(x) = Aus Satz 72 folgt wegen gcd(p, q) =, dass es Polynome u, v K[X] gibt mit up + vq =. Daher gilt (h)(x) =, und wegen (h) = id folgt x =. Beispiel. Wie im vorherigen Beispiel sei V = C ([, ], R). Für zwei lineare Differentialgleichungen mit konstanten Koeffizienten, p f(x) + p f (x) + + p r f (r) (x) = q f(x) + q f (x) + + q s f (s) (x) = 8

182 mit p,..., p r, q,..., q r R sagt der Satz, dass es keine gemeinsamen Lösungen geben kann, wenn die Polynome p + p X + + p r X r und q + q X + + q s X s teilerfremd sind. Im Fall dim V < gibt es für jeden Endomorphismus h: V V nach Satz 8 ein annihilierendes Polynom a K[X]. Für dieses gilt a(h) = und damit ker a(h) = V. Für jedes zu a teilerfremde Polynom p muss deshalb gelten ker p(h) = {}. Allgemeiner gilt für jedes Polynom p und jedes annihilierende Polynom a von h die Beziehung ker p(h) ker gcd(a, p)(h), denn für gewisse u, v K[X] gilt gcd(a, p) = ua + vp, und daher gcd(a, p)(h) = (ua + vp)(h) = (vp)(h) = v(p(h)), und daraus folgt gcd(a, p)(h)(x) = für alle x V mit p(h)(x) =. 4-7 Am schärfsten wird diese Überlegung, wenn a das Minimalpolynom ist, weil das unter allen annihilierenden Polynomen von h das mit den wenigsten Teilern ist. Um nichttriviale h-invariante Unterräume von V zu finden, genügt es also, die Teiler des Minimalpolynoms (ggf. mit erhöhter Vielfachheit) zu betrachten. Beispiel.. Betrachte A = und h: Q5 Q 5, h(x) = Ax. Das Minimalpolynom von h ist m = (X 4) 3 (X 7) 2 und das charakteristische Polynom ist χ = (4 X) 3 (7 X) 2. Es gibt folgende h-lineare Unterräume: ker(h 4 id) =, ker(h 7 id) =, ker(h 4 id) 2 =,, ker(h 7 id)2 =,, ker(h 4 id) 3 =,,, ker(h 7 id)3 =,, ker(h 4 id) 4 =,,, ker(h 7 id)4 =, 82

183 .. Für höhere Exponenten ändert sich nichts mehr, d.h. es gilt ker(h 4 id) m = ker(h 4 id) 3 für alle m 3 und ker(h 7 id) m = ker(h 7 id) 2 für alle m 2. Alle h-invarianten Unterräume von V lassen sich schreiben als Summen ker(h 4 id) i ker(h 7 id) j für gewisse i, j N. 2. Betrachte A = und h: Q5 Q 5, h(x) = Ax. Die Matrix unterscheidet sich von der Matrix im vorherigen Beispiel nur im Eintrag (, 2). Für die invarianten Unterräume zum Eigenwert 4 ergibt sich nun: ker(h 4 id) =,, ker(h 4 id) 2 =,,, ker(h 4 id) 3 =,,,. Für den Eigenwert 7 ändert sich nichts. Für jeden Teiler p des Minimalpolynoms gibt es eine Kette {} ker p(h) ker p(h) 2 ker p(h) 3 V von h-invarianten Unterräumen. Wegen dim V < muss es Exponenten s N geben mit ker p(h) s = ker p(h) s+. Für ein solches s muss dann aber sogar schon gelten ker p(h) s+ = ker p(h) s+2 = ker p(h) s+3 =. (Beweis: Übung.) Die Kette stabilisiert sich also schon beim ersten Exponenten, bei dem nichts Neues dazukommt. Um Basen für die Räume ker p(h) s auszurechnen, ist es nicht nötig, zuerst die Matrix zu p(h) s auszurechnen und dann deren Kern zu bestimmen. Stattdessen kann man ausnutzen, dass x ker p(h) s

184 p(h)(x) ker p(h) s gilt. Wenn man also schon eine Basis {b,..., b k } von ker p(h) s kennt, dann kann man eine Basis für ker p(h) s dadurch ausrechnen, dass man das lineare Gleichungssystem p(h)x = β b + + β k b k nach x und β,..., β k löst. Beispiel. Im ersten Teil des vorherigen Beispiels war ker(h 4 id) 2 =,. Wir wollen eine Basis von ker(h 4 id) 3 bestimmen. Nach der obigen Bemerkung sind die Elemente x ker(h 4 id) 3 genau jene Vektoren x = (x, x 2, x 3, x 4, x 5 ), für die es β, β 2 K gibt mit 3 3 x x 2 x 3 x 4 x 5 = β + β 2. Das lineare Gleichungssytem 3 3 x x 2 x 3 x 4 x 5 β β 2 = hat den Lösungsraum,,. Die gesuchte Basis von ker(h 4 id) 3 erhält man, wenn man aus diesen Vektoren die letzten beiden Koordinaten (also die, die zu β, β 2 gehören) streicht. 3 Die Jordan-Normalform Man kann die Überlegungen aus dem vorherigen Abschnitt noch weiter treiben. Betrachten wir einen endlich-dimensionalen K-Vektorraum V und einen Endomorphismus h: V V, dessen charakteristisches Polynom χ nur Faktoren vom Grad hat, d.h. χ = (λ X) e (λ k X) e k 84

185 für gewisse paarweise verschiedene λ,..., λ k K und gewisse e,..., e k N \ {}. Aus Satz 87 folgt, dass es eine Basis von V gibt, bezüglich der die Abbildungsmatrix von h die Form M M 2 M =... M k hat, wobei M i K ei ei eine Matrix mit charakteristischem Polynom (λ i X) ei ist (i =,..., k). Den Blöcken M,..., M k von M entsprechen h-invariante Unterräume von K n. Man kann sich jetzt fragen, ob sich diese Räume noch weiter zerlegen lassen, und wenn ja, wie sich diese Zerlegbarkeit auf die möglichen Darstellungen der Blöcke M i auswirkt. Die Einzelheiten der weiteren Herleitung sind relativ technisch und ansonsten nicht mehr allzu interessant. Wir geben deshalb ohne Beweis direkt das Endresultat an. Satz 9. (Jordan-Normalform) Sei V ein K-Vektorraum, dim V = n <, h: V V ein Endomorphismus, dessen charakteristisches Polynom χ sich schreiben lässt als χ = (λ X) e (λ k X) e k für gewisse paarweise verschiedene λ,..., λ k K und gewisse e,..., e k N \ {}. Dann gibt es eine geordnete Basis B von V, so dass die Abbildungsmatrix M von h bezüglich 3- B die Form J J J = 2... J k hat, wobei jedes J i K e i e i die Form J i, J i,2 J i =... J i,li hat, wobei jedes J i,j die Form λ i J i,j = λ i λ i λ i hat. (Man nennt J i,j ein Jordan-Kästchen zum Eigenwert λ i.) Dabei gilt: 85

186 . Die Anzahl der Jordan-Kästchen der Größe m m im Block J i ist genau 4-7 dim ker(h λ i id) m+ + 2 dim ker(h λ i id) m dim ker(h λ i id) m (m {,..., e i }). 2. Die Gesamtzahl l i der Jordan-Kästchen im Block J i ist dim E λi Ist s i die Vielfachheit von X λ i im Minimalpolynom von h, so gibt es in M i mindestens ein Jordan-Kästchen der Größe s i s i und es gibt kein größeres. 4. Sind B, B zwei Basen, für die die Abbildungsmatrizen J, J diese Form haben, dann unterscheiden sich J, J höchstens in der Reihenfolge der Jordan-Kästchen. Beispiel. Die Matrix hat die in Satz 9 beschriebene Form. Der Block zum Eigenwert 2 hat drei Jordan-Kästchen: zwei der Größe 3 3 und eins der Größe. Der Block zum Eigenwert 3 hat zwei Jordan- Kästchen, beide der Größe 2 2. Das Minimalpolynom lässt sich direkt ablesen zu (X 2) 3 (X 3) 2. Das charakteristische Polynom lautet (2 X) 7 (3 X) 4. Für die Dimensionen der Eigenäume gilt dim E 2 = 3 und dim E 3 = Die Form aus Satz 9 heißt Jordan-Normalform von h. Mit der Jordan-Normalform einer Matrix A K n n ist eine Jordan-Normalform des Endomorphismus h: K n K n, h(x) = Ax gemeint. Nach dem Satz existiert eine Jordan-Normalform für jede Matrix, deren charakteristisches Polynom vollständig faktorisiert. Wenn K algebraisch abgeschlossen ist, gilt das für jede Matrix. Um zu einer gegebenen Matrix A K n n eine geordnete Basis B K n n zu bestimmen, für die B AB eine Jordan-Normalform ist, kann man folgenden Algorithmus verwenden. Algorithmus 6. Eingabe: A = ((a i,j )) n i,j= Kn n, so dass das charakteristische Polynom von A die Form χ = (λ X) e (λ k X) e k hat für e,..., e k N \ {} und paarweise verschiedene λ,..., λ k K. Ausgabe: Eine Jordan-Normalform J K n n sowie eine invertierbare Matrix B K n n mit B AB = J 86

187 setze J auf die leere Matrix und B auf die leere Liste. 2 für i =,..., k: 3 bestimme E (m) λ i := ker(a λ i I n ) m für m =,..., e i sei m maximal mit dim E (m) λ i > dim E (m ) λ i 5 solange m >, wiederhole: 6 bestimme eine Basis {b,..., b d } eines Raums U K n mit der Eigenschaft E (m) λ i = U ( (A λ i I n )E (m+) λ i + E (m ) λ i ). 7 für j =,..., d: 8 ergänze J um ein Jordan-Kästchen für λ i der Größe m m 9 ergänze B um (A λ i I n ) m b j, (A λ i I n ) m 2 b j,..., (A λ i I n )b j, b j m = m gib J und B als Ergebnis aus. Beispiel. Wir wenden den Algorithmus auf die Matrix A = Q 6 6 an. Das charakteristische Polynom von A ist (2 X) 6, also brauchen wir die in Zeile 2 beginnende Schleife nur einmal zu durchlaufen. Als invariante Teilräume erhalten wir E () 2 = {} E () 2 =, , E (2) 2 = 2, 3 2,,, 2 E (3) 2 =,,,,, = Q 6. 87

188 Ohne weitere Rechnung ergibt sich an dieser Stelle E (3) 2 = = E (6) 2 = E (7) 2 = Q 6. Nach Satz 9 muss es dim E 2 = dim E () 2 = 3 Jordan-Kästchen geben, und mindestens eines davon muss die Länge m = 3 haben. Da sich die Kästchenlängen insgesamt zu 6 aufaddieren müssen, ist an dieser Stelle bereits klar, wie die Jordan-Normalform aussehen wird: Sie hat je ein Kästchen der Längen 3, 2 und. Wenn wir nicht auch an der Basis B interessiert wären, könnten wir also schon aufhören. Um die Basis B zu berechnen, führen wir die Schleife aus, die in Zeile 5 beginnt. Es ist (A 2I 6 )E (4) 2 + E (2) 2 = 3 3 6,..., }{{} von (A 2I 6 )E (4) 2, 2,..., 2 }{{} von E (2) 2 = 2, 3 2,, 2 und wir brauchen einen Komplementärraum dieses Raums in E (3) 2. Im vorliegenden Fall ist das einfach, weil E (3) 2 = Q 6 schon der ganze Raum ist. Eine mögliche Wahl ist E (3) 2 = }{{} =b ( (A 2I 6 )E (4) 2 + E (2) 2 ). Daraus ergeben sich die ersten drei Basisvektoren wie folgt: (A 2I 6 ) 2 b = , (A 2I 6 ) b = 3 3 6, (A 2I 6 ) b =. 88

189 Nächster Schleifendurchlauf: m = 2. Es ist (A 2I 6 )E (3) 2 + E () 2 = 3 3 6,..., }{{} von (A 2I 6 )E (3) 2,, , }{{} von E () 2 = 5 2, 3, 4, 2 4 und wir brauchen einen Komplementärraum dieses Raums in E (2) 2. Der Raum E(2) 2 ist echt kleiner als Q 6, aber wir können einen geeigneten Raum U finden, indem wir zunächst wie üblich einen Komplementärraum durch Ergänzung zu einer Basis von Q 6 bestimmen, und dann den Schnitt dieses Komplementärraums mit E (2) 2 nehmen. Aus der oben angegebenen Basis lässt sich ablesen, dass {e 5, e 6 } eine Basis für einen Komplementärraum in Q 6 ist. Durch den Schnitt dieses Raums mit E (2) 2 erhalten wir E (2) 2 = 2 }{{} =b ( (A 2I 6 )E (3) 2 + E () 2 ). Daraus ergeben sich die nächsten beiden Basiselemente wie folgt: (A 2I 6 ) b = , (A 2I 6 ) b = 2. Letzter Schleifendurchlauf: m =. Es ist (A 2I 6 )E (2) 2 + E () 2 = , , , , = 2 2 2,

190 Wegen 2 = 3 5 ( (A 2I 6 )E (2) 2 + E () ) E () ist (,, 3, 5, 2, 3) eine mögliche Wahl für das letzte Basiselement. Als Endergebnis erhalten wir 2 B = und als Jordan-Normalform ergibt sich, wie erwartet, 2 2 J = B 2 AB = Für diagonalisierbare Matrizen A hatten wir gesehen, dass sie sich leicht potenzieren lassen. Mit Hilfe der Jordan-Normalform lässt sich das verallgemeinern. Ist nämlich J die Jordan-Normalform der Matrix A und ist B so, dass A = B JB, dann gilt A n = B J n B. Zur Potenzierung von J überlegt man sich zunächst, dass für beliebige Blockdiagonalmatrizen und für jedes n N gilt n M M n M 2 M n 2... =.... M k Es genügt deshalb, sich zu überlegen, wie die n-te Potenz eines Jordan-Kästchens aussieht. Das haben wir bereits im Beispiel nach Satz 86 getan. Satz 9. Sei A K n n so, dass das charakteristische Polynom keine irreduziblen Faktoren vom Grad 2 enthält. Dann gilt: A ist genau dann diagonalisierbar, wenn das Minimalpolynom von A keine mehrfachen Nullstellen hat. Beweis. Folgt direkt aus Satz 9. M n k 9

191 Teil VI Skalarprodukte 9

192 3 Metrische, normierte und euklidische Räume In diesem und in den folgenden Abschnitten betrachten wir nur Vektorräume über dem Körper K = R. Die meisten Aussagen lassen sich (evtl. mit kleinen Anpassungen) auf Vektorräume über K = C übertragen. Wir werden von der Betragsfunktion auf R (bzw. C) Gebrauch machen und von der Eigenschaft, dass R ein angeordneter Körper ist (d.h. es ist auf R eine Totalordnung erklärt, die mit den Körperoperationen in gewohnter Weise verträglich ist). Für z = x + iy mit x, y R ist z := x 2 + y 2 definiert. Man beachte, dass auch für komplexe Zahlen z C der Betrag z stets reell und nicht-negativ ist. Eine nützliche Eigenschaft von R ist, dass für jedes x R mit x und jedes p N \ {} genau ein y R mit y und y p = x existiert. Man bezeichnet dieses y := p x bekanntlich als die p-te Wurzel (engl. root) von x. Definition Sei M eine Menge und d: M M R eine Funktion, so dass für alle x, y, z M gilt: d(x, y) d(x, y) = x = y d(x, y) = d(y, x) d(x, y) + d(y, z) d(x, z). Dann heißt d eine Metrik auf M und das Paar (M, d) heißt ein metrischer Raum. 2. Ein metrischer Raum (M, d), bei dem M ein Vektorraum über R ist, heißt metrischer Vektorraum Sei V ein R-Vektorraum und : V R eine Funktion, so dass für alle x, y V und alle α R gilt: x = x = αx = α x x + y x + y. Dann heißt eine Norm auf V und das Paar (V, ) heißt ein normierter Raum. Beispiel.. Die Hamming-Distanz aus Abschnitt 23 ist eine Metrik auf M = Z n 2. Sie macht (Zn 2, d) zu einem metrischen Raum, aber nicht zu einem metrischen Vektorraum, weil Z n 2 zwar ein Vektorraum, aber kein R-Vektorraum ist Sei K = { (x, y, z) R 3 : x 2 +y 2 +z 2 = } die Oberfläche der Einheitskugel. Für je zwei verschiedene Punkte a, b K gibt es genau einen Kreis mit Mittelpunkt (,, ) durch a und b. Die Punkte a und b teilen diese Kreislinie in zwei Kreisbogenstücke. Definiert man d(a, b) als die Länge des kürzeren Bogenstücks, so ist d: K K R eine Metrik. 92

193 a b 3. Ist V ein R-Vektorraum und d eine Metrik auf V, so kann man d(x, y) als den Abstand zwischen x und y interpretieren. Für V = R 2 ist zum Beispiel durch eine Metrik erklärt. d( (x, x 2 ), (y, y 2 ) ) := (x y ) 2 + (x 2 y 2 ) 2 4. Ist V ein R-Vektorraum und eine Norm auf V, so kann man x als die Länge des 4-5 Vektors x V interpretieren. Für V = R 2 ist zum Beispiel durch (x, x 2 ) := x 2 + x2 2 eine Norm definiert. Für jede Norm auf V ist d: V V R, d(x, y) := x y eine Metrik. Allerdings kommt nicht jede Metrik in dieser Weise von einer Norm. 5. Sei (V, ) ein normierter Raum und { falls x = y d: V V R, d(x, y) := x + y sonst Dann ist d eine Metrik auf V, aber es gibt keine Norm auf V, so dass d(x, y) = x y für alle x, y V gelten würde, denn für eine solche Norm müsste gelten 3 2 x = x + 2 x = d(x, 2 x) = x 2 x = d(x 2 x, ) = 2 x, was für x nicht stimmen kann. 6. Sei V R N der Vektorraum aller Folgen (a n ) n=, für die die Reihe n= a2 n konvergiert. Dann wird durch (a n ) n= := eine Norm auf V erklärt. 7. Für jedes p N \ {} wird durch n= a 2 n (x,..., x n ) p := p x p + + x n p 93

194 eine Norm auf R n erklärt. Auch definiert eine Norm. (x,..., x n ) := max( x,..., x n ) Für eine Norm auf einem R-Vektorraum V nennt man die Menge K := {x V : x = } die Einheitskugel(schale) (engl. unit sphere) in V bezüglich der Norm. Für V = R 2 und die Normen,..., 5 und haben diese Mengen die folgende Gestalt: 8. Für jedes p N \ {} wird auf dem Raum V = C([, ], R) durch eine Norm definiert. f p := p f(x) p dx 9. Sei V = R n m. Sei n eine Norm auf R n und m eine Norm auf R m. Für A V sei definiert A = sup{ Ax n : x K }, wobei K die Einheitskugelschale in R m bezüglich der Norm m ist. A ist also die Länge des längsten Vektors im Zielraum R n, der das Bild eines Vektors auf der Einheitskugel in R m ist. Im Sinn der Analysis ist die Menge K kompakt und die Abbildung x Ax m stetig. Deshalb ist das Supremum sogar ein Maximum und es gibt einen Vektor v R m mit v m = und Av n = A. Die Abbildung ist eine Norm auf V. Definition 6. Sei V ein R-Vektorraum. Eine Funktion : V V R heißt Skalarprodukt (engl. scalar product) auf V, falls für alle x, y, x, x 2 V und alle α, α 2 R gilt:. x x und x x = x = 2. x y = y x 3. α x + α 2 x 2 y = α x y + α 2 x 2 y Ist ein Skalarprodukt auf V, so heißt (V, ) ein Skalarproduktraum oder ein euklidischer (Vektor-)Raum. Statt (V, ) schreibt man auch einfach V. 94

195 Beispiel.. Im Raum R n wird durch x. x n y. y n := x y + + x n y n ein Skalarprodukt erklärt. Man nennt es das Standardskalarprodukt. Wenn in konkreten Beispielen in R n das Skalarprodukt nicht explizit angegeben ist, wird meist dieses gemeint sein. Für x, y R n ist das Standardskalarprodukt gerade die Matrixmultiplikation xy, wobei x als Zeilen- und y als Spaltenvektor aufgefasst wird. Wir werden für dieses Skalarprodukt deshalb auch die Notationen xy und x y verwenden. 2. Auf l 2 := { (a n ) n= RN : n= a2 n < } wird durch (a n ) n= (b n ) n= := a n b n ein Skalarprodukt definiert. (Beachte, dass auf der rechten Seite stets eine konvergente Reihe steht.) Sei V = R 3 und A = 2 2. Durch x y := xay wird auf V ein Skalarprodukt erklärt, das vom Standardskalarprodukt verschieden ist. Im Ausdruck xay ist dabei x als Zeilenvektor und y als Spaltenvektor zu verstehen, so dass xay = x A y im Sinn der Matrixmultiplikation eine Zahl ergibt. Dass es sich bei um ein Skalarprodukt handelt, erkennt man durch Nachrechnen der nötigen Gesetze: die Linearität ist offensichtlich, und die Symmetrie folgt direkt daraus, dass A eine symmetrische Matrix ist (d.h. A = A ). Es ist auch klar, dass =. Weniger offensichtlich ist die Eigenschaften x x und x x = x =. Dass diese auch erfüllt sind, folgt aus der Beobachtung x (x, x 2, x 3 ) A x 2 x 3 n= = 4x 2 + 4x x 2 + 2x x x 3 + 2x 2 x 3 + x 2 3 = (x + x 2 + x 3 ) 2 + (x + x 2 ) 2 + 2x 2, denn eine Summe von Quadraten ist immer nicht-negativ und wird nur dann Null, wenn alle Summanden Null sind. Und offenbar gilt x = x + x 2 = x + x 2 + x 3 = nur für x = x 2 = x 3 =. 95

196 4. Sei w C([, ], R) eine beliebige Funktion mit w(x) > für alle x [, ]. Dann wird durch f g := ein Skalarprodukt auf C([, ], R) erklärt. w(x)f(x)g(x)dx Bei Vektorräumen über C statt über R können Skalarprodukte im allgemeinen komplexe Werte annehmen. Man verlangt aber, dass x x für alle x reell ist. Nur dann kann man die erste Bedingung überhaupt formulieren, weil auf C ja gar keine Ordnungsrelation erklärt ist. Statt der Symmetrie x y = y x fordert man die Eigenschaft x y = y x, wobei u + iv := u iv die komplex-konjugierte Zahl zu u + iv C ist. Man sagt, die Abbildung ist hermitesch. Wegen (u + iv)(u + iv) = u 2 + v 2 ist für jede komplexe Zahl z C das Produkt z z eine nichtnegative reelle Zahl. Für z R C gilt z = z, so dass sich Hermiteschheit als Verallgemeinerung der üblichen Symmetrie auffassen lässt. Das Standardskalarprodukt in C n ist definiert durch x. x n y. y n = x ȳ + + x n ȳ n. Für Skalarprodukte über reellen Räumen folgt aus der Linearität im ersten Argument und der Symmetrie, dass sie auch linear im zweiten Argument sind: x β y + β 2 y 2 = β x y + β 2 x y 2. Für komplexe Skalarprodukträume gilt das nicht! Stattdessen gilt hier nur x y +y 2 = x y + x y 2 und x βy = β x y. Das erste und das zweite Argument verhalten sich also leicht unterschiedlich. Dabei ist es eine Konventionsfrage, welches der beiden Argumente das erste und welches das zweite Argument ist. Statt αx y = α x y, x βy = β x y findet man manchmal auch die Variante αx y = ᾱ x y, x βy = β x y. Wir werden hier weder die eine noch die andere Version propagieren sondern uns auf den Fall reeller Skalarprodukträume beschränken. Im folgenden ist mit einem Skalarproduktraum immer ein reeller Skalarproduktraum im Sinn von Definition 6 gemeint. Satz 92. Sei V ein Skalarproduktraum und : V V R definiert durch x := x x. Dann ist eine Norm und für alle x, y V gilt:. x y 2 x x y y (Cauchy-Schwarz-Ungleichung) 2. x + y 2 + x y 2 = 2 x y 2 (Parallelogrammgleichung) 3. 4 x y = x + y 2 x y 2 4. x y = x 2 + y 2 = x + y 2 (Pythagoras) Beweis. Dass eine Norm ist, kann man selbst überprüfen. Seien x, y V.. Falls y = ist, ist die Aussage offensichtlich wahr. Wir betrachten den Fall y. Dann gilt y y, und für alle α R gilt x + αy x + αy = x x + 2α x y + α 2 y y. 96

197 Für die spezielle Wahl α = x y / y y folgt daraus und daraus die Behauptung. x x x y 2 y y, 2. x + y 2 + x y 2 = x + y x + y + x y x y = x x + 2 x y + y y + x x 2 x y + y y = 2 x x + 2 y y = 2 x y x + y 2 x y 2 = x + y x + y x y x y = x x + 2 x y + y y x x + 2 x y y y = 4 x y. 4. folgt aus x + y 2 x 2 y 2 = x + y x + y x x y y = 2 x y. Vektorraum metrischer Raum metrischer Vektorraum normierter Vektorraum Skalarproduktraum Konvention: Sofern nichts anderes vereinbart ist, werden wir bei Skalarprodukträumen die Notation 4-5 für das Skalarprodukt und die Notation für die zugehörige Norm verwenden (also x = x x ). Satz 93. Ist V ein R-Vektorraum und : V V R ein Skalarprodukt auf V, dann gibt es ein v (V V ), so dass für alle x, y V gilt x y = v (x y). Beweis. Sei B eine Basis von V. Dann ist B B eine Basis von V V. Jedes Funktional v (V V ) ist eindeutig festgelegt durch die Werte v (b b 2 ) für alle b, b 2 B, und für jede Wahl von Werten gibt es genau ein passendes Funktional (Satz 5). Definiere also v : V V R durch v (b b 2 ) := b b 2 für alle b, b 2 B. Sind dann x, y V beliebig, etwa x = n i= α ib i und y = n i= β ib i für gewisse b,..., b n B und α,..., α n, β,..., β n R, so gilt 4-7 v (x y) = v ( n α i b i = n i= i= j= n ) β i b i = v ( n i= n α i β j v (b i b j ) = 97 n i= j= i= j= n α i β j (b i b j ) ) n α i β j b i b j

198 n n n n = α i b i β j b j = α i b i β j b j i= j= i= j= = x y. Definition 62. Sei V ein Skalarproduktraum.. Zwei Elemente x, y V heißen (zueinander) orthogonal oder (aufeinander) senkrecht (engl. perpendicular), falls x y = gilt. In diesem Fall schreibt man auch x y. 2. Zwei Teilmengen X, Y V heißen (zueinander) orthogonal oder (aufeinander) senkrecht, falls für alle x X und alle y Y gilt x y. In diesem Fall schreibt man X Y. 3. Sei M eine Teilmenge von V. Dann heißt Beispiel. das orthogonale Komplement von M. M := { x V y M : x y } Für x V schreibt man statt {x} auch einfach x.. Für alle x V gilt x =, d.h. der Nullvektor steht senkrecht auf jeden Vektor. Für x V \ {} gilt x x, d.h. außer dem Nullvektor steht kein Vektor senkrecht auf sich selbst. Vorsicht: Zwei Ebenen im R 3, die sich rechtwinklig schneiden, wie z.b. die (x, y)- Ebene und die (x, z)-ebene, stehen nicht im Sinn von Teil 2 der Definition senkrecht aufeinander, weil dazu alle Vektoren in der Schnittgeraden (im Bsp. die Punkte auf der x-achse) senkrecht auf sich selbst stehen müssten. Der einzige Vektor, der auf sich selbst senkrecht steht, ist aber der Nullvektor. Es gilt also X Y X Y {} für alle X, Y V. 2. Sei V = R 3 und sei das Standardskalarprodukt. Betrachte M = {(, 2, )}. Wegen x x 2 x 2 2 = x + 2x 2 + x 3 = x 2, x 3 x 3 ist M die Ebene, die von (,, ) und ( 2,, ) aufgespannt wird. x 2 (, 2, ) x 3 x M 98

199 3. Umgekehrt: Betrachte die Ebene 2 E =, R 3. Ein Vektor (x, x 2, x 3 ) R gehört genau dann zum orthogonalen Komplement E, wenn für alle α, α 2 R gilt x 2 x 2 α + α 2 =. x 3 Wegen der Linearität des Skalarprodukts sind diese Vektoren (x, x 2, x 3 ) genau jene, für die gilt x x 2 x 2 = x 2 = x 3 x 3 ( ) ( ) x x 2 2 = x 3 x x 2. x 3 2 Daraus folgt, dass E die Gerade durch (,, ) und (,, 2) ist. Diese Information kann man zum Beispiel dazu verwenden, einen gegebenen Punkt p R 3 an der Ebene E zu spiegeln. Man nutzt aus, dass die Vektoren (,, ) und (2,, ), die E aufspannen, zusammen mit dem Vektor (,, 2), der E aufspannt, eine Basis von R 3 bilden. Aus einer Koordinatendarstellung des Punkts p bezüglich dieser Basis lässt sich leicht die Koordinatendarstellung des an E gespiegelten Punktes berechnen: Ist 2 p = α + α 2 + α 3, 2 so ist 2 p = α + α 2 α 3 2 der Bildpunkt. 99

200 p x 2 (,, 2) x 3 p E x 4-4. Der Raum R 4 sei versehen mit dem Skalarprodukt 2 x y = x y. 2 Dann gilt 6 { 2 3, } { 2 4, }. Beachte, dass diese Mengen nicht bezüglich des Standardskalarprodukts senkrecht aufeinander stehen. Zum Beispiel gilt = Im Raum l 2 stehen die Folgen (a n ) n= und (b n) n= mit a n = 3(/2) n 4(/3) n, b n = 9(/2) n 8(/3) n aufeinander senkrecht, denn es gilt (a n ) n= (b n ) n= = a n b n n= = lim n k= n ( 3(/2) k 4(/3) k)( 9(/2) n 8(/3) n) = lim n (2n+ 3 n+ ) 2 6 2n =. 6. Im Raum C([, 2π], R) mit dem Skalarprodukt f g := 2π f(x)g(x)dx stehen die Funktionen sin und cos senkrecht aufeinander. 2

201 7. Betrachte die Räume R n und R m zusammen mit dem Standardskalarprodukt. Sei A R n m. Dann gilt ker A coim A und coker A im A. Dieser Sachverhalt wurde in der schematischen Zeichnung auf Seite schon angedeutet. Um das einzusehen, betrachtet man am besten ein Beispiel. Ist zum Beispiel 5 9 T = die Treppennormalform von A R 4 5, so bilden die von Null verschiedenen Zeilen von T eine Basis von coim A. Das sind in diesem Fall 5, 7, Basisvektoren von ker A erhält man durch Auffüllen von T mit negativen Einheitsvektoren als zusätzlichen Zeilen und Extraktion der Spalten, in denen die neuen -Einträge zu liegen kommen. Im vorliegenden Fall wären das 5 7, Wie man sieht, steht jeder Vektor aus der Basis von coim A senkrecht auf jedem Vektor in der Basis von ker A. Wegen der Linearität des Skalarprodukts muss dann auch jeder Vektor von coim A senkrecht zu jedem Vektor in ker A sein. 8. Betrachte den Raum R n zusammen mit dem Standardskalarprodukt. Sei A R n n symmetrisch, seien λ, λ 2 zwei verschiedene Eigenwerte von A. Dann gilt E λ E λ2. Zum Beweis betrachte man beliebige v E λ und v 2 E λ2. Aus Av = λ v und Av 2 = λ 2 v 2 folgt v 2 Av = λ v 2 v und v Av 2 = λ 2 v v 2. Weil A symmetrisch ist, gilt v 2 Av = v Av 2, und weil außerdem v 2 v = v v 2 gilt, folgt λ v v 2 = λ 2 v v 2, also (λ λ 2 )v v 2 =. Wegen λ λ 2 folgt v v 2 =, wie behauptet Satz 94. Sei V ein Skalarproduktraum und M V. Dann gilt:. M ist ein Untervektorraum von V. 2. M (M ). 3. M = m M {m}. 2

202 Beweis.. Zu zeigen: M und für alle x, y M und α, β R gilt αx + βy M. 4-3 Für alle m M gilt m =, also ist auf jeden Fall M und damit M. Seien nun x, y M und α, β R beliebig. Nach Definition von M gilt dann x m = y m = für alle m M. Wegen der Linearität des Skalarprodukts folgt daraus für alle m M, und also αx + βy M. αx + βy m = α x m + β y m = 2. Sei x = α m + + α k m k für gewisse α,..., α k R and m,..., m k M. 4- Zu zeigen: x (M ), d.h. für alle v M gilt x v =. Sei v M. Nach Definition von M gilt v m = für alle m M, insbesondere für m,..., m k. Deshalb gilt v x = x v = α m + + α k m k v = α m v + + α k m k v = α v m + + α k v m k =. Daraus folgt die Behauptung. 3. Sei x V beliebig. Dann gilt x M m M : x m m M : x {m} x {m}. m M 32 Positivdefinitheit Im Beispiel zu Definition 6 haben wir gesehen, dass es Matrizen A R n n gibt, für die durch x y := xay ein Skalarprodukt erklärt wird. Aber offenbar kommen für eine solche Definition nicht alle Matrizen A R n n infrage. Zwar gilt die Linearität für jede Wahl von A, aber die Bedingung x y = y x in Definition 6 erzwingt, dass A = A gelten muss, denn aus der Bedingung xay = yax folgt für die spezielle Wahl x = e i, y = e j, dass der (i, j)-eintrag von A identisch mit dem (j, i)-eintrag von A sein muss. Als drittes soll nach Definition 6 gelten, dass für alle x R n \ {} gilt xax >. Auch das ist nicht für jede Matrix A R n n der Fall, zum Beispiel gilt ( ) ( ) (, ) = <. 22

203 Definition 63.. A R n n heißt symmetrisch, falls A = A gilt. 2. Eine symmetrische Matrix A R n n heißt positiv definit, falls x R n \ {} : xax >. negativ definit, falls x R n \ {} : xax <. positiv semidefinit, falls x R n : xax. negativ semidefinit, falls x R n : xax. indefinit in allen anderen Fällen. Beispiel.. A = ( ) 2 R ist symmetrisch. Für jeden Vektor x = (x, x 2 ) R 2 gilt ( ) ( ) 2 x (x, x 2 ) 2 5 Damit ist A zumindest positiv semidefinit. Wegen ist A sogar positiv definit. x 2 ( ) x + 2x = (x, x 2 ) 2 2x + 5x 2 = x (x + 2x 2 ) + x 2 (2x + 5x 2 ) = x 2 + 4x x 2 + 5x 2 2 = (x + 2x 2 ) 2 + x 2 2. (x + 2x 2 ) 2 + x 2 2 = x + 2x 2 = x 2 = x = x 2 = 2. Für jede symmetrische Matrix A R n n gilt: A ist positiv (semi-)definit A ist negativ (semi-)definit. Außerdem gilt: Jede positiv definite Matrix ist positiv semidefinit, aber nicht jede positiv semidefinite Matrix ist positiv definit. ( ) 3. A = ist indefinit, denn ( ) ( ) (, ) = > ( ) ( ) und (, ) = <. Satz 95. Jede symmetrische Matrix in R n n ist diagonalisierbar. 23

204 Beweis. Sei A R n n symmetrisch. Zunächst ist zu zeigen, dass das charakteristische Polynom χ von A in R[X] vollständig faktorisiert. Sicher tut es das, wenn man es als Polynom 4-7 in C[X] auffasst, weil C algebraisch abgeschlossen ist. Ist aber λ = a + ib C ein Eigenwert 4- von A und ist v C n \ {} ein Eigenvektor zu λ, so lässt sich v schreiben als v = u + iw für gewisse u, w R n. Dann gilt 4- Av = λv A(u + iw) = (a + ib)(u + iw) Au + iaw = (au bw) + i(bu + aw), 4- also Au = au bw und Aw = bu + aw, also u(aw) = b uu + a uw und w(au) = a uw b ww. 4-5 Wegen der Symmetrie von A gilt uaw = wau, und deshalb folgt aus den obigen beiden Gleichungen b uu = b ww, also b(uu + ww) =. Wegen v ist u oder v, daher uu oder ww, jedenfalls aber uu und ww, also muss b = sein. Damit ist gezeigt, dass für jeden komplexen Eigenwert z = a + ib der Imaginärteil b Null ist, d.h. alle Eigenwerte sind reell, d.h. das charakteristische Polynom χ von A in R[X] faktorisiert vollständig. Nach Satz 9 bleibt zu zeigen, dass das Minimalpolynom keine mehrfachen Nullstellen hat. Dazu genügt es zu zeigen, dass für jeden Eigenwert λ gilt ker(a λi n ) 2 ker(a λi n ). Sei also x ker(a λi n ) 2. Dann gilt (A λi n ) 2 x = x(a λi n )(A λi n )x = ( x(a λi n ) )( (A λi n )x ) = ( (A λi n )x )( (A λi n )x ) = (A λi n )x = x ker(a λi n ). Satz 96. Sei A = ((a i,j )) n i,j= Rn n eine symmetrische Matrix. Dann sind folgende Aussagen äquivalent:. Alle Eigenwerte von A sind positiv. 2. Durch x y := xay wird auf R n ein Skalarprodukt erklärt. 3. A ist positiv definit. 4. Für alle k =,..., n ist ((a i,j )) k i,j= Rk k positiv definit. 5. Für alle k =,..., n gilt det((a i,j )) k i,j= >. 6. Es gibt eine Matrix B GL(n, R) mit A = B B (Cholesky-Zerlegung). 24

205 Beweis. () (2). Zu zeigen: x R n \ {} : xax >. Da A symmetrisch ist, ist A nach Satz 95 diagonalisierbar. Daraus folgt, dass R n = E λ E λk, wobei λ,..., λ k die Eigenwerte von A sind. Diese sind nach Annahme positiv. Sei x R n \ {} beliebig. Dann gibt es x E λ,..., x k E λk mit x = x + + x k. Daher k xax = (x + + x k )A(x + + x k ) = λ i x i x j. i= λ i x i x i + i j Der erste Term ist sicher positiv, weil alle λ i positiv, alle x i x i nicht-negativ und wenigstens ein x i nicht Null ist. Der zweite Term ist Null, weil Eigenräume bezüglich des Standardskalarprodukts senkrecht aufeinander stehen (vgl. das letzte Beispiel nach Definition 62). (2) (3). klar. (3) (4). Zu k {,..., n} sei A k := ((a i,j )) k i,j= Rk k. Zu zeigen: x R k \ {} : xa k x >. Sei x = (x,..., x k ) R k \ {} beliebig. Für den Vektor x = (x,..., x k,,..., ) R n \{} gilt dann xa k x = xa x. Da A nach Annahme positiv definit ist, folgt xa k x >. (4) (5). Wir schreiben wieder A k = ((a i,j )) k i,j= für k =,..., n. Die Determinante det A k ist das Produkt der Eigenwerte von A k. Ist das nicht positiv, so ist zumindest ein Eigenwert nicht positiv, etwa der Eigenwert λ. Ist dann x R k \ {} ein Eigenvektor zu λ, so wäre xa k x = xλx = λxx, im Widerspruch zur 4-4 Positiv-Definitheit von A k. (5) (6). Wir schreiben wieder A k = ((a i,j )) k i,j= für k =,..., n und beweisen die Behauptung durch Induktion nach k. Für k = ist A = a, = det(a ) >, d.h. wir können B = a, nehmen. ( ) Induktionsschluss k k: Sei a k R k Ak a so, dass A k = k ist. Nach Induktionsvoraussetzung gibt es eine Matrix B k GL(k, R) mit A k = Bk B k. Insbesondere ist A k invertierbar. Betrachte die Matrix ( Ik A T = k a ) k. Dann gilt det(t ) = und T A k T = Für α = a k,k a k A k a k gilt α = det(t A k T ) det(a k ) ( ) Ak a k,k a k A k a. k 25 = det(a k) det(a k ) >. a k a k,k

206 Wir können deshalb ( ) 4-5 Bk B k = T α 4-5 setzen und erhalten wie gefordert ( ) ( ) ( ) Bk B k = (T ) B k Bk α α T = (T ) Ak T = A α k 4-5 (6) (). Es sei die zum Standardskalarprodukt gehörige Norm. Sei λ R ein Eigenwert von A und x ein Eigenvektor zu λ. Nach Voraussetzung gilt A = B B für eine invertierbare Matrix B. Aus Ax = λx folgt xax = λ x 2. Andererseits gilt xax = xb Bx = (Bx)(Bx) = Bx 2, also Bx 2 = λ x 2. Wegen x gilt x 2 > und da B invertierbar ist, gilt auch Bx 2 >. Daraus folgt λ >. 3 2 Beispiel. Die Matrix A = 2 2 ist positiv definit, weil det(3) = 3 >, det ( ) = 6 4 = 2 >, det 2 2 = >. 2 2 Die Eigenwerte von A sind die Nullstellen von X 3 + 6X 2 5X +. Diesem Polynom lässt sich nicht ohne weiteres ansehen, dass all seine Nullstellen (reell und) positiv sind. 33 Orthogonalsysteme Definition 64. Sei V ein Skalarproduktraum und B V \ {}.. B heißt Orthogonalsystem (OS), falls b, b B : b b b b = 2. B heißt Orthonormalsystem (ONS), falls B ein Orthogonalsystem ist und zusätzlich gilt b B : b b =. 3. B heißt Orthogonalbasis (OB) von V, falls B zugleich Orthogonalsystem und Basis von V ist. 4. B heißt Orthonormalbasis (ONB) von V, falls B zugleich Orthonormalsystem und Basis von V ist. 26

207 Beispiel.. Für V = R n und das Standardskalarprodukt ist die Standardbasis {e,..., e n } eine ONB. 2. Für V = R 2 und das Standardskalarprodukt ist auch B = { ( ) ( ) } 2, 2 eine ONB. 3. Ist B ein OS eines Vektorraums V, so ist { b : b B} ein ONS. b b 4. Sei V = R 2. Bezüglich des Skalarprodukts ist { ( ) (, 2) } eine Orthogonalbasis. x y := x ( ) 2 y ( ) ( ) 2 Es sei hier noch einmal darauf hingewiesen, dass Orthogonalität von der Wahl des Skalarprodukts abhängt. Die übliche Orthogonalität bezieht sich aufs Standardskalarprodukt. 5. Im Raum V = l 2 bildet die Menge aller Folgen { falls i = n e i : N R, e i (n) = sonst ein Orthonormalsystem (aber keine Basis!). 6. Im Raum V = C([, ], R) mit dem Skalarprodukt f g = f(x)g(x) dx ist z.b. {x, x x, x 2 (3x2 ), x 2 (5x3 3x)} ein Orthogonalsystem. Davon überzeugt man sich leicht durch Nachrechnen. Ein anderes Orthogonalsystem ist {x sin(nπx) : n N \ {}} {x cos(nπx) : n N}. 27

208 7. Die Folge (T n ) n= in R[X] ist rekursiv definiert durch T =, T = X, T n+2 = 2XT n+ T n (n N). Die Polynome T n heißen Chebyshev-Polynome (erster Art). Man zeigt leicht durch Induktion, dass deg T n = n für alle n N gilt. Daraus folgt, dass {T n : n N} eine Basis von R[X] ist. Auf R[X] wird durch ein Skalarprodukt erklärt. p q := x 2 p(x)q(x)dx Man kann dann durch Induktion nachrechnen, dass für alle n, m N gilt falls n m T n T m = π falls n = m = π/2 falls n = m Also bildet {T n : n N} eine Orthogonalbasis von R[X] bezüglich des Skalarprodukts. Satz 97. Jedes Orthogonalsystem ist linear unabhängig. 4-5 Beweis. Sei M ein OS und seien x,..., x n M paarweise verschieden, α,..., α n R so, dass α x + + α n x n =. Zu zeigen: α = = α n =. Sei i {,..., n} beliebig. Dann gilt = x i = α x + + α n x n x i = α x x i + + α n x n x i = α i x i x i. Da x i als Element eines Orthogonalsystems nicht Null ist, ist x i x i. Darum muss α i = sein. Satz 98. Sei V ein Skalarproduktraum und B eine ONB von V. Dann gilt:. Für jedes x V gibt es höchstens endlich viele b B mit x b. 2. Für alle x V gilt x = b B x b b. 3. Ist n = dim V <, sind x, y V und sind x, ȳ die Koordinatendarstellungen von x, y bezüglich B, so gilt x y = xȳ, d.h. das Skalarprodukt auf V entspricht dem Standard- Skalarprodukt in R n. 28

209 Beweis.. Sei x V beliebig. Dann existieren b,..., b n B und α,..., α n R mit x = α b + + α n b n, weil B eine Basis von V ist. Für alle b B \ {b,..., b n } gilt dann weil B ein OS ist. x b = α b b + + α n b n b =, 2. Sind x V und b,..., b n B, α,..., α n R wie oben, so gilt x b i = α b b i + + α n b n b = α i b i b i = α i, weil B ein ONS ist. Zusammen mit x b = für b B \ {b,..., b n } folgt n n x = α i b i = i b i = i= i= x b x b b. b B 3. Sei B = {b,..., b n } die ONB. Seien x, y V beliebig, etwa x = α b + + α n b n und y = β b + + β n b n für gewisse α,..., α n, β,..., β n R. Dann gilt: 4-5 α n n n n n β x y = α i b i β j b j = α i β j b i b j = α k β k =... i= j= i= j= k= α n β n Eine Folgerung von Teil 2 ist die sogenannte Parsevalsche Gleichung x 2 = b B x b 2, die immer gilt, wenn B eine ONB ist. Ist B nur ein ONS und ist B abzählbar, so gilt immer noch die sogenannte Besselsche Ungleichung x 2 b B x b 2 für alle x V. Dabei kann die Summe auf der rechten Seite unter Umständen unendlich viele Terme haben, aber sie ist dann immer konvergent. Satz 99. Sei V ein Skalarproduktraum, A ein endlich-dimensionaler Unterraum von V, {a,..., a n } eine ONB von A, x V beliebig und x = n i= x a i a i. Dann gilt:. a A : x x a. 2. a A : x x x a. x x A 29

210 Beweis.. Sei a = α a + + α n a n A beliebig. Nach Definition von x gilt x a i = x a i für alle i. Daraus folgt x a = n α i x a i = i= n α i x a i = x a, i= und daraus x x a =, wie behauptet. 2. Sei a A beliebig. Dann gilt x a x a = x x + x a x x + x a = x x x x + x }{{ a } x x + x x } x {{ a } x x x x. Daraus folgt die Behauptung. A A } {{ } = + x a x a }{{} 5-2 Beispiel.. Sei V = R 3 ausgestattet mit dem Standardskalarprodukt, A =, V, x =. Die angegebene Basis von A ist orthogonal aber nicht orthonormal. Eine ONB ist z.b. {, 2 }. Damit bekommen wir 3 x = = + = Gemäß Teil ist x der Schnittpunkt der Ebene A mit der Geraden durch x, die senkrecht auf dieser Ebene steht. Gemäß Teil 2 gibt es in der Ebene A keinen Punkt, der näher an x liegt als x. 2. Sei V = C([, ], R) ausgestattet mit dem Skalarprodukt f g = 2 f(x)g(x)dx.

211 Wir haben im Beispiel nach Definition 64 gesehen, dass {x, x x, x 2 (3x2 ), x 2 (5x3 3x)} ein Orthogonalsystem bezüglich ist. Durch Skalierung dieser Funktionen kommt man zum Orthonormalsystem {x 2, x 3 x, x (3x2 ), x 7 8 (5x3 3x)}. Es sei A V der Unterraum, der von diesen Funktionen erzeugt wird. Die Funktion f = (x e x ) V liegt nicht in diesem Unterraum. Die Orthogonalprojektion f von f auf A lautet 4-6 f(x) = e t dt t et dt 2 x (3t2 ) e t dt 8 (3x2 ) 7 8 (5t3 3t) e t dt 7 8 (5x3 3x) = 4e( 3(e 2 ) + 5(7e 2 5)x + 5(e 2 7)x ( 5e )x 3). Bezüglich der von induzierten Norm gibt es kein Polynom vom Grad 3, das näher an f liegt als f. Der Abstand ist f f = e x f(x)dx Seien V und wie zuvor und betrachte noch einmal f = (x e x ) V. Jetzt sei 4-6 Für beliebiges n N \ {} gilt A = (x sin(nπx)) : n N \ {}. f (x sin(nπx)) = sin(nπx)e x dx = ( e2 )n cos(n) + ( + e 2 ) sin(n) (n 2 + )e =: a n. Damit erhalten wir eine Folge von Approximationen f n : [, ] R, f n (x) = n a n sin(nπx), die sich immer näher an f annähern. Es ist nämlich f n die Projektion von f auf den Raum A n = (x sin(kπx)) : k =,..., n, 2 k=

212 und wegen A A 2 und Teil 2 des Satzes kann die Qualität der Approximation bei steigendem n nicht schlechter werden. Damit ist aber noch nicht gesagt, dass die Funktionenfolge (f n ) n= gegen f konvergiert. Tatsächlich kann sie das nicht, denn für alle n N \ {} gilt auf jeden Fall f n () = = f(). Die Grenzfunktion lim n f n (falls sie denn existiert) ist nur die beste Näherung an f, die mit den Funktionen in A möglich ist. Um eine wirklich gute Approximation zu bekommen, muss man A so wählen, dass sich jedes Element von V erreichen lässt als Grenzfunktion einer Funktionenfolge in A. Eine bessere Wahl ist zum Beispiel der Raum A, der von {(x 2 )} {(x sin(πnx)) : n N \ {}} {(x cos(πnx)) : n N \ {}} erzeugt wird. Für die Folge (g n ) n= definiert durch g n : [, ] R, g n (x) = e e 2 n + f (x sin(πnx)) sin(πnx) + k= n f (x cos(πnx)) cos(πnx) k= bekommt man deutlich bessere Approximationen, zumindest im Inneren des Definitionsbereichs. y f(x) g 5 (x) g 5 (x) g (x) x Satz. (Gram-Schmidt) Sei V ein Skalarproduktraum und {b, b 2,... } linear unabhängig. Setze u = b, v = u u, u 2 = b 2 b 2 v v, v 2 = u 2 u 2,. n u n = b n b n v k v k, v n = u n u n, k= 22.

213 .. Dann ist {v, v 2,... } eine ONB des Unterraums b, b 2,... von V. Insbesondere gilt: Ist dim V <, so hat V eine ONB. Beweis. Wir zeigen induktiv, dass b,..., b n = v,..., v n für alle n N, und dass {v,..., v n } ein ONS ist. Für n = ist das klar. Induktionsschritt n n:. Aus der Definition von u n und v n folgt b n u n + v,..., v n = v,..., v n und wegen der Induktionsvoraussetzung auch u n b n + v,..., v n = b,..., b n. Damit gilt v,..., v n = b,..., b n. 2. Aus der Definition von u n und Satz 99 Teil folgt u n v i für alle i =,..., n. Aus der Definition von v n folgt dann v n v i und v n = für alle i. Das Verfahren aus Satz hat eine anschauliche geometrische Interpretation. Aus dem n-ten Basisvektor b n wird der n-te Vektor v n der ONB in zwei Schritten gewonnen. Im ersten Schritt projiziert man b n orthogonal auf den Unterraum b,..., b n, der von den schon behandelten Vektoren aufgespannt wird. Satz 99 sagt, wie das geht. Ist b n das Resultat dieser Projektion, so muss u n := b n b n im orthogonalen Komplement von b,..., b n liegen. Im zweiten Schritt skaliert man u n auf einen Vektor, der in die gleiche Richtung wie u n zeigt und die Länge hat. u n = b n b n b n v n bn b,..., b n Beispiel.. Betrachte V = R 3 mit dem Standardskalarprodukt und B = {,, 2 }. 3 Wir berechnen eine ONB von V mit dem Verfahren aus Satz : u =, v =, u 2 = =, v 2 =, 2 23

214 u 3 = = /2, /2 v 3 =. 2 Man erhält also die ONB {,, } Bei der Berechnung von v n aus u n ist zu beachten, dass die Norm verwendet wird, die zum Skalarprodukt gehört, also x = x x (x V ). Ist zum Beispiel V = R 3 mit dem Skalarprodukt 2 x y = x 2 y 3 ausgestattet, und ist B wie oben, so liefert das Verfahren u =, v =, 2 u 2 = /2 =, v 2 = /2 2, }{{} = 3 2 u 3 = /2 2 / }{{}}{{} 2 = = 2 3 = 2, v 3 = Sei V = R[X] mit dem Skalarprodukt p q := 24 p(x)q(x)dx.

215 Ausgehend von B = {, X, X 2,... } berechnen wir eine ONB von V bezüglich dieses Skalarprodukts mit dem Verfahren des Satzes. Dabei ergibt sich: v =, 2 3 v 2 = 2 X, 5 v 3 = 8 (3X2 ), 7 v 4 = 8 (5X3 3X), 9 v 5 = 28 (35X4 2X 2 + 3), v 6 = 28 (63X5 7X 3 + 5X),. Die Polynome, X, 2 (3X2 ), 2 (5X2 3X),..., von denen v, v 2,... skalare Vielfache erscheinen, heißen Legendre-Polynome. Das n-te Legendre-Polynom wird mit P n (x) bezeichnet. Es gilt die Rekurrenz 5-2 (n + 2)P n+2 (x) (2n + 3)xP n+ (x) + (n + )P n (x) =, P (x) =, P (x) = x. 4. Wenn V = R[X] mit dem Skalarprodukt p q := x 2 p(x)q(x)dx ausgestattet ist und das Verfahren des Satzes auf die Basis B = {, X, X 2,... } angewendet wird, findet man v =, π 2 v 2 = π X, 2 v 3 = π (2X2 ), 2 v 4 = π (4X3 3X), 2 v 5 = π (8X4 8X 2 + ), 2 v 6 = π (6X5 2X 3 + 5X),. Diese Polynome sind skalare Vielfache der Chebyshev-Polynome T n. 25

216 34 Adjungierte Abbildungen Definition 65. Seien V, W zwei Skalarprodukträume. Sei V das Skalarprodukt auf V und W das Skalarprodukt auf W. Zwei lineare Abbildungen f Hom(V, W ) und g Hom(W, V ) heißen (zueinander) adjungiert, falls gilt v V w W : f(v) w W = v g(w) V. Beispiel Seien V = R 3, W = R 2, beide ausgestattet mit dem jeweiligen Standardskalarprodukt. Die beiden Abbildungen f : R 3 R 2 ( ) 2 3 f(x) = x g : R 2 R 3 g(x) = 2 5 x 3 6 sind zueinander adjungiert, denn für alle v V und w W gilt ( ) 2 3 f(v) w = v w ( 4 = v 2 5 ) w 3 6 ( 4 ) = v 2 5 w Sei W = l 2 und = v g(w). V = { (a n ) n= l 2 : N N n N : a n = } Dann ist V ein echter Teilraum von W. Beide Räume seien mit dem Skalarprodukt von l 2 versehen. Betrachte f : V W, f(v) = v. Wir wollen zeigen, dass es zu f keine adjungierte Abbildung gibt. Angenommen, g : W V wäre eine adjungierte Abbildung zu f. Dann gilt v V w W : f(v) w = v g(w), }{{} = v w also also v V w W : v w g(w) =, 26

217 w W : w g(w) V. Jedoch ist V = {}, denn ist (a n ) n= W \ {}, so gibt es mindestens ein m N mit a m, und für die Folge (b n ) n= mit b m = und b n = für alle n m gilt (b n ) n= V und (a n) n= (b n) n= = a m, also (a n ) n= V. Aus w W : w g(w) {} folgt, dass g die Identitätsabbildung ist. Das ist aber wegen g : W V W nicht möglich. Satz. Seien U, V, W Skalarprodukträume. Dann gilt:. Zu f Hom(V, W ) gibt es höchstens eine adjungierte Abbildung f Hom(W, V ). 2. Falls zu f, f 2 Hom(V, W ) die adjungierten Abbildungen f, f 2 Hom(W, V ) existieren, so existiert für alle α, α 2 R auch die adjungierte Abbildung (α f + α 2 f 2 ) zu α f + α 2 f 2, und es gilt (α f + α 2 f 2 ) = α f + α 2f2. 3. Falls zu f Hom(V, W ) die adjungierte Abbildung f Hom(W, V ) existiert, so existiert auch die adjungierte Abbildung (f ) Hom(V, W ) von f, und es gilt (f ) = f. 4. Existiert die adjungierte Abbildung f Hom(V, U) zu f Hom(U, V ) sowie die adjungierte Abbildung f 2 Hom(W, V ) zu f 2 Hom(V, W ), so existiert auch die adjungierte Abbildung (f 2 f ) Hom(W, U) von f 2 f Hom(U, W ) und es gilt (f 2 f ) = f f 2. Beweis.. Sei V das Skalarprodukt auf V und W das Skalarprodukt auf W. Sei f Hom(V, W ) und seien f, f Hom(W, V ) zwei adjungierte Abbildungen zu f. Dann gilt 4-2, 4-28 v V w W : f(v) w W = v f (w) V = v f (w) V, v V w W : v (f f )(w) V =, w W : (f f )(w) (f f )(w) V =, w W : (f f )(w) =, f = f. 2., 3., 4. Übung. Satz 2. (Riesz) Sei V ein Skalarproduktraum, dim V <. Dann existiert für jedes v V genau ein v V so dass x V : v (x) = x v. 27

218 Beweis. Existenz: Wähle eine ONB {b,..., b n } von V und betrachte v = v (b )b + + v (b n )b n. Für jedes x = α b + + α n b n gilt dann n n x v = α i b i v (b j )b j = i= n i= j= j= n α i v (b j ) b i b j = α v (b ) + + α n v (b n ) = v (α b + + α n b n ) = v (x). Eindeutigkeit: Sind v, v V so, dass für alle x V gilt x v = x v, so gilt für alle x V auch x v v =, insbesondere gilt dann v v v v =. Daraus folgt v v =, d.h. v = v. Beispiel. Sei V = R 3 ausgestattet mit dem Standardskalarprodukt. Das Funktional v V sei definiert durch x v ( y ) = 3x 2y + 8z. z Der eindeutig bestimmte Vektor v aus dem Satz ist dann v = (3, 2, 8). Ist V dagegen ausgestattet mit dem Skalarprodukt 2 x y = x 2 y, 3 so lautet der eindeutig bestimmte Vektor aus dem Satz v = ( 8 3, 7 3, 8 3 ). Satz 3. Seien V, W zwei endlichdimensionale Skalarprodukträume. Dann existiert zu jedem f Hom(V, W ) eine adjungierte Abbildung f Hom(W, V ). Beweis. Sei V das Skalarprodukt auf V und W das Skalarprodukt auf W. Sei f Hom(V, W ). Für jedes feste w W ist die Abbildung v : V R, x f(x) w W ein Element von V. Nach Satz 2 gibt es genau ein v V, so dass für alle x V gilt v (x) = x v. Es sei f : W V die Funktion, die jedem w W das in dieser Weise eindeutig bestimmte v zuordnet. Dann gilt x V w W : f(x) w W = x f (w) V. Es bleibt zu zeigen, dass f linear ist. Dazu betrachte x V, α, α 2 R, w, w 2 W. Es gilt x f (α w + α 2 w 2 ) = f(x) α w + α 2 w 2 = α f(x) w + α 2 f(x) w 2 = α x f (w ) + α 2 x f (w 2 ) = x α f (w ) + α 2 f (w 2 ). Da x beliebig war, folgt daraus f (α w + α 2 w 2 ) = α f (w ) + α 2 f (w 2 ), wie gewünscht. 28

219 Satz 4. Seien V, W zwei endlichdimensionale Skalarprodukträume. Sei A eine geordnete ONB von V und B eine geordnete ONB von W. Dann gilt: Ist M die Abbildungsmatrix von f Hom(V, W ) bezüglich A und B, so ist M die Abbildungsmatrix der adjungierten Abbildung f Hom(W, V ) bezüglich B und A. Beweis. Sei V das Skalarprodukt auf V und W das Skalarprodukt auf W. Wir schreiben A = (a,..., a n ) und B = (b,..., b m ). Sei f Hom(V, W ) und M = ((m i,j )) m,n i=,j= die Abbildungsmatrix von f bezüglich A und B, und sei N = ((n i,j )) n,m i=,j= die Abbildungsmatrix von f Hom(W, V ) bezüglich B und A. Für alle i, j gilt dann 4-2 m f(a j ) b i = m k,j b k b i = k= a j f (b i ) = a j n n k,i a k = k= m m k,j b k b i = m i,j k= n n k,i a j a k = n j,i. Definition 66. Sei V ein Skalarproduktraum. Ein Endomorphismus f End(V ) heißt selbstadjungiert oder symmetrisch, falls gilt k= x, y V : f(x) y = x f(y), d.h. wenn f eine adjungierte Abbildung f besitzt und f = f gilt. Beispiel.. Betrachte V = R 2 mit dem Standardskalarprodukt. Die Abbildung ( ) 2 f : V V, f(x) = x 3 ist selbstadjungiert, da für alle x, y V gilt: f(x) y = (( ) 2 x ) y = ( ( ) 2 ) ( ( ) 2 x y = x y ) = x f(y) Betrachte den Vektorraum V = { f C ([, ], R) : f() = f () = =, f() = 4-22 f () = = } mit dem Skalarprodukt f g = f(t)g(t)dt. Dann ist F : V V, F (f) = f selbstadjungiert, denn für alle f, g V gilt F (f) g = = + ( f (t))g(t)dt = [ f (t)g(t) ] ( f (t))g (t)dt f (t)g (t)dt = [ f(t)g (t) ] f(t)g (t)dt = f F (g). 29

220 Satz 5. (Spektralsatz) Sei V ein endlichdimensionaler Skalarproduktraum und f : V V ein Endomorphismus. Dann gilt: f ist genau dann symmetrisch wenn V eine ONB aus Eigenvektoren von f hat. Beweis. Sei B eine Orthonormalbasis von V. Dann entspricht das Skalarprodukt auf 4-23 V dem Standardskalarprodukt für die Koordinatenvektoren bezüglich B. Aus f(x) y = x f(y) für alle x, y V folgt (Ax)y = x(ay) für alle x, y R n (n = dim V ). Daraus folgt, dass A symmetrisch ist. Nach Satz 95 ist jede symmetrische Matrix diagonalisierbar. Nach Satz 96 ist R n die direkte Summe der Eigenräume von A. Da ein Vektor x V genau dann ein Eigenvektor von f ist, wenn seine Koordinatendarstellung ein Eigenvektor von A ist, folgt, dass V die direkte Summe der Eigenräume f ist. Nach Satz hat jeder Eigenraum eine ONB. Wie im Beispiel nach Def. 62 zeigt man, dass Eigenräume symmetrischer Abbildungen senkrecht aufeinander stehen. Damit ist die Vereinigung der ONBs der Eigenräume von f eine ONB von V. Sei {b,..., b n } eine ONB von V bestehend aus Eigenvektoren von f. Seien λ,..., λ n R die zugehörigen Eigenwerte. (Es wird nicht angenommen, dass diese paarweise verschieden sind.) Zu zeigen: x, y V : f(x) y = x f(y). Wegen der Linearität des Skalarprodukts genügt es, die Gleichung für Basiselemente zu überprüfen. In der Tat gilt { } λi falls i = j f(b i ) b j = λ i b i b j = = b sonst i λ j b j = b i f(b j ). 35 Projektionen und Isometrien Definition 67. Sei V ein Vektorraum. Eine lineare Abbildung h: V V heißt Projektion, falls gilt h 2 = h. Beispiel.. h: R 3 R 3 mit h(x, y, z) = (x, y, ) ist eine Projektion. Ihr Bild ist die (x, y)-ebene. (x, y, z) (x, y, ) Sei A = 3 4. Dann ist h: R 3 R 3 mit h(x) = Ax eine Projektion, denn 2 3 es gilt A 2 = A. 3. h: K[[X]] K[[X]] mit h( n= a nx n ) = 2 n= a nx n ist eine Projektion. 22

221 4. Sei V ein K-Vektorraum, U ein Unterraum von V und W ein Komplementärraum von U. Dann hat jedes v V eine eindeutige Darstellung v = u + w mit u U und w W. Die lineare Abbildung h: V V, die jedem v den Vektor u U aus dieser Darstellung zuordnet, ist eine Projektion. Satz 6. Sei V ein Vektorraum und h: V V eine Projektion. Dann gilt V = ker h im h. Beweis. Zunächst gilt ker h im h = {}, denn für ein beliebiges v ker h im h gilt h(v) = und v = h(w) für ein w V. Dann = h(v) = h(h(w)) = h(w), da h eine Projektion ist. Dann ist w ker h, und dann ist v = h(w) =. Damit ist die Summe direkt. Es bleibt zu zeigen, dass zu jedem v V ein u ker h und ein w im h existiert, so dass 4-22 v = u + w. Sei v V beliebig und wähle u = v h(v) und w = h(v). Dann gilt v = u + w und w im h und wegen h(u) = h(v h(v)) = h(v) h(h(v)) = h(v) h(v) = auch u ker h. Beispiel.. Betrachte die Projektion h: R 2 R 2, h(x) = Ax mit A = ( ) 3. Es gilt ker A = ( ) ( ) 3 und im A =. Geometrisch handelt es sich bei einer Projektion h immer 2 um eine Parallelprojektion in Richtung von ker h auf den Unterraum im h. h(x) im h x ker h 2. Dass aus V = ker h im h im allgemeinen nicht folgt, dass h eine Projektion ist, sieht man an dem einfachen Beispiel V = R, h: V V, h(x) = 2x. Hier gilt ker h = {} und im h = R, also V = ker h im h. Aber h ist keine Projektion, denn h(h(x)) = 4x 2x = h(x) für x. Definition 68. Sei V ein Skalarproduktraum. Eine Projektion h: V V heißt Orthogonalprojektion, falls für alle x, y V gilt x h(x) h(y)

222 Beispiel Wenn R 3 mit dem Standardskalarprodukt versehen ist, ist die Abbildung h: R 3 R 3 mit h(x, y, z) = (x, y, ) eine Orthogonalprojektion, denn für alle x = (x, x 2, x 3 ) R 3 und alle y = (y, y 2, y 3 ) R 3 gilt x h(x) = (,, x 3 ) und h(y) = (y, y 2, ), also x h(x) h(y) =, wie gefordert. 2. Die lineare Abbildung h: R 2 R 2 mit h(x) = ( ) 3 x aus dem vorherigen Beispiel ist zwar eine Projektion, aber keine Orthogonalprojektion ( ) (zumindest ( ) nicht bezüglich des Standardskalarprodukts). Zum Beispiel für x = und y = gilt h(x) x y = 6 5( 2) 3 ) 5( 6 = Sei V ein Skalarproduktraum und A = {a,..., a n } V ein ONS. Dann folgt aus Satz 99, dass die lineare Abbildung h: V V, h(x) = n x a i a i i= eine Orthogonalprojektion ist. Satz 7. Sei V ein Skalarproduktraum und h: V V eine Projektion. Dann gilt: h ist genau dann eine Orthogonalprojektion, wenn ker h im h Beweis. h ist eine Orthogonalprojektion. Seien v ker h und w im h. Dann gilt h(v) = und h(w) = w. Daraus folgt: v w = v h(v) w = v h(v) h(w) =. Sei x V. Dann gilt h(x) im h, und weil h eine Projektion ist, gilt h(x h(x)) = h(x) h(h(x)) = h(x) h(x) =, also x h(x) ker h. Wegen ker h im h folgt x h(x) h(y) für alle y V. Satz 8. Sei V ein Skalarproduktraum und U V ein Unterraum mit dim U <. Dann existiert genau eine Orthogonalprojektion h: V V mit im h = U. Beweis. Existenz: Nach Satz hat U eine ONB, etwa B = {b,..., b n }. Setzen wir h(x) = n i= x b i b i, so ist h nach Satz 99 eine Orthogonalprojektion, und für diese gilt h(b i ) = b i (i =,..., n) und h(x) U für alle x V. Darum ist im h = U. Eindeutigkeit: Seien h, h: V V zwei Orthogonalprojektionen mit im h = im h = U. Zu zeigen: für alle v V gilt h(v) = h(v). Sei v V beliebig. Dann gilt v h(v) ker h und v h(v) ker h, weil h und h Projektionen sind. Nach Satz 7 gilt v h(v) im h = U und v h(v) im h = U. Wegen h(v) h(v) U folgt v h(v) h(v) h(v) =, v h(v) h(v) h(v) =. Subtraktion dieser beiden Gleichungen liefert h(v) h(v) h(v) h(v) =, also h(v) = h(v). 222

223 Definition 69. Sei V ein Skalarproduktraum. Eine lineare Abbildung h: V V heißt Isometrie, falls für alle x V gilt x = h(x). Beispiel. Sei V = R 2 versehen mit dem Standardskalarprodukt, φ R, ( ) cos(φ) sin(φ) A = sin(φ) cos(φ) und h: V V, h(x) = Ax. Für jedes x = (x, x 2 ) R 2 gilt dann Also ist h eine Isometrie. ( ) x cos(φ) + x h(x) = 2 sin(φ) x sin(φ) + x 2 cos(φ) = x 2 cos(φ)2 + x 2 2 sin(φ)2 + x 2 sin(φ)2 + x 2 2 cos(φ)2 = x 2 + x2 2 = x. Es handelt sich um die Abbildung, die die Ebene im Uhrzeigersinn um den Winklel φ um den Ursprung dreht. (Für φ = π/2 gilt zum Beispiel h(, ) = (, ).) Satz 9. Sei V ein Skalarproduktraum und h: V V eine lineare Abbildung. Dann gilt: h ist genau dann eine Isometrie, wenn für alle v, w V gilt v w = h(v) h(w). Beweis. h ist eine Isometrie. Seien v, w V. Dann gilt v w = h(v w), also v w v w = h(v w) h(v w), also v v 2 v w + w w = h(v) h(v) 2 h(v) h(w) + h(w) h(w). Wegen v v = v 2 = h(v) 2 = h(v) h(v) und w w = h(w) h(w) folgt 4-2 daraus v w = h(v) h(w), wie gefordert. Gilt v w = h(v) h(w) für alle v, w V, so gilt insbesondere v v = h(v) h(v) für alle v V. Daraus folgt v = h(v) für alle v V. Beispiel. Sei V = R n mit dem Standardskalarprodukt. Sei B = (b,..., b n ) R n n eine geordnete ONB von V und h: V V, h(x) = Bx. Dann ist h eine Isometrie, denn für je zwei Vektoren x = (x,..., x n ) R n und y = (y,..., y n ) R n gilt n n h(x) h(y) = x i b i y j b j = i= j= n n x i y j b i b j = x y + + x n y n = x y. i= j= Definition 7. Eine Matrix in R n n, deren Spalten bezüglich des Standardskalarprodukts eine ONB von R n bilden, heißt orthogonal. Satz. Sei A R n n.. A ist genau dann orthogonal, wenn A invertierbar ist und A = A gilt. 2. Ist A orthogonal, so gilt det A {, } und für jeden Eigenwert λ R von A gilt λ {, }. 223

224 Beweis Aus A = A folgt AA = I n. Wenn also a,..., a n R n die Spalten von A 4-2 sind, dann gilt { falls i = j a i a j = sonst für alle i, j. Damit ist {a,..., a n } eine ONB bezüglich des Standardskalarprodukts. Ist A = (a,..., a n ) R n n orthogonal, so gilt AA = I n und A A = I n, und daraus folgt sofort die Behauptung. 2. Für die Determinante gilt det(a) = Satz 28 det(a ) = also det(a) 2 =, also det(a) {, }. Teil det(a ) = Satz 3 det(a), Sei λ R ein Eigenwert von A und v R n \{} ein Eigenvektor von A zum Eigenwert λ. Da A orthogonal ist, ist h: R n R n, h(x) = Ax eine Isometrie. Damit gilt v = Av = λv = λ v, und wegen v folgt daraus λ =, also λ {, }. Satz. Sei V ein Skalarproduktraum, dim V = n < und h: V V eine lineare Abbildung. Dann sind folgende Aussagen äquivalent:. h ist eine Isometrie. 2. Für jede ONB {b,..., b n } von V ist {h(b ),..., h(b n )} eine ONB von V. 3. Es gibt eine ONB {b,..., b n } von V, so dass {h(b ),..., h(b n )} eine ONB von V ist. 4. Für jede ONB B von V ist die Abbildungsmatrix von h bezüglich B und B orthogonal. 5. Es gibt eine ONB B von V, so dass die Abbildungsmatrix von h bezüglich B und B orthogonal ist. Beweis. Wir verwenden die Notation { falls i = j δ i,j = sonst für i, j N. () (2). Für alle i, j =,..., n gilt h(b i ) h(b j ) = b i b j = δ i,j. Damit ist {h(b ),..., h(b n )} ein ONS, und aus Dimensionsgründen auch eine ONB. (2) (4). Sei B = (b,..., b n ) R n n eine geordnete ONB und M = ((m i,j )) n i,j= die Abbildungsmatrix von h bezüglich B und B. Die Spalten von M sind dann die Koordinatenvektoren von h(b i ) bezüglich B, d.h. für alle j =,..., n gilt h(b j ) = m,j b + + m n,j b n. Nach Annahme gilt h(b i ) h(b j ) = δ i,j für alle i, j, also m,i b + + m n,i b n m,j b + + m n,j b n = δ i,j, 224

225 also m,i m,j + + m n,i m n,j = δ i,j für alle i, j. Das bedeutet, dass M orthogonal ist. (4) (5). Klar, weil V nach Satz mindestens eine ONB hat. (5) (3). Sei B = (b,..., b n ) die ONB und M = ((m i,j )) n i,j= die Abbildungsmatrix von M. Wir zeigen h(b i ) h(b j ) = δ i,j für alle i, j. Seien also i, j beliebig. Dann gilt h(b i ) h(b j ) = m,i b + + m n,i b n m,j b + + m n,j b n weil M nach Annahme orthogonal ist. = m,i m,j + + m n,i m n,j = δ i,j, (3) (). Sei {b,..., b n } eine ONB, so dass auch {h(b ),..., h(b n )} eine ONB ist. Sei x V beliebig, etwa x = α b + + α n b n für gewisse α,..., α n R. Dann gilt Daraus folgt die Behauptung. h(x) 2 = α h(b ) + + α n h(b n ) 2 = α α 2 n = α b + + α n b n 2 = x 2. Durch Satz werden Isometrien recht genau charakterisiert. Man kann sich etwas mehr Mühe machen und orthogonale Matrizen genauer charakterisieren. Es lässt sich nämlich zeigen, dass eine 4-27 Matrix A R n n genau dann orthogonal ist, wenn es eine orthogonale Matrix B R n n gibt, so dass B AB die folgende Form hat, wobei jedes ( ) cos(φ) sin(φ) für einen 2 2-Block der Form für ein φ R steht. Wie sin(φ) cos(φ) im Beispiel nach Defintion 69 gezeigt, entspricht ein solcher 2 2-Block einer Drehung in einer Ebene um den Winkel φ. Eine Isometrie h mit det h = nennt man deshalb auch Drehung (engl. rotation). Isometrien h mit det h = heißen Drehspiegelungen. Im Fall n = 3 hat eine Isometrie bezüglich einer geeigneten ONB (b, b 2, b 3 ) typischerweise eine Darstellungsmatrix der Form ± cos(φ) sin(φ). sin(φ) cos(φ) 225

226 Dabei findet die Drehung in der Ebene b 2, b 3 statt, d.h. um die darauf senkrecht stehende Gerade b als Drehachse. Wenn der Eintrag oben links eine ist, dann bewirkt die lineare Abbildung zusätzlich zur Drehung eine Spiegelung an der Ebene b 2, b 3. Bemerkenswert ist auch, dass die Verkettung zweier Isometrien h, h 2 : V V wieder eine Isometrie ist, weil natürlich x = h (x) = h 2 (h (x)) für alle x V gilt. Da orthogonale Matrizen nach Satz auch invertierbar sind, folgt daraus für V = R n, dass die Menge O(n) := { A R n n : A ist orthogonal } eine Untergruppe von GL(n, R) ist. Man nennt sie die orthogonale Gruppe der Größe n. Die Untergruppe SO(n) := O(n) SL(n, R) = { A R n n : A ist orthogonal und det A = } heißt die spezielle orthogonale Gruppe der Größe n. 36 Die Singulärwertzerlegung Diagonalisierbare Matrizen entsprechen Transformationen des Raumes, die sich als Streckungen in bestimmte Richtungen (nämlich die der Eigenvektoren) charakterisieren lassen. Dass nicht alle Matrizen diagonalisierbar sind, bedeutet also geometrisch, dass es lineare Abbildungen gibt, die nicht einfach einer Kombination von Streckungen in bestimmte Richtungen entsprechen. Das Resultat dieses Abschnitts lässt sich so zusammenfassen, dass sich jede lineare Abbildung h: R n R n darstellen lässt als eine Kombination von Drehungen und Streckungen. Die Singulärwerte sind dabei die Streckungsfaktoren. Sie sind im allgemeinen verschieden von den Eigenwerten. ( ) Beispiel. Die Matrix A = ist nicht diagonalisierbar. Ihr einziger Eigenwert ist und der dazugehörige Eigenraum ist E = ( ) R 2. Die Matrix A lässt sich zerlegen als A = UΣV mit U = ( ) = (u, u 2 ), ( Σ = ) = diag(σ, σ 2 ), V = ( ) = (v, v 2 ). Dabei sind U und V orthogonale Matrizen, bewirken also Drehungen der Ebene um den Ursprung. Die Matrix Σ ist eine Diagonalmatrix, bewirkt also Streckungen der Ebene in Richtung der Koordinatenachsen. 226

227 σ u A v2 σ2 u2 v V> U e2 σ2 e 2 e σ e Σ Zur Vereinfachung der Notation wollen wir in diesem Abschnitt annehmen, dass alle Ra ume Rn mit dem Standardskalarprodukt ausgestattet sind. Definition 7. Sei A Rn m. U Rn n und V Rm m seien orthogonale Matrizen n m sei so, dass σ und Σ = ((σi,j ))n,m i,j = fu r i 6= j und σ, σ2,2 i,j= R > gilt. Wenn A = U ΣV gilt, heißt (U, Σ, V ) eine Singula rwertzerlegung (engl. singular value decomposition, SVD) von A. m m n n = n A m n U Σ m V> r m n m r n A = n n U m Σ m V> Satz 2. Sei A Rn m und (U, Σ, V ) eine Singula rwertzerlegung von A, σ n m σ2 Σ= R

228 Dann gilt A = σ. Zur Erinnerung: Die Norm A einer Matrix A R n m ist definiert als der maximale Wert, der von Ax erreicht wird, wenn x durch die Einheitskugelschale von R m läuft (vgl. das Beispiel zu Def. 6). Aus analytischen Gründen gibt es für jede Matrix A R n m einen Vektor x R m mit x = und A = Ax. Das werden wir im folgenden Beweis verwenden. Beweis. Wegen σ σ 2 gilt Σ = σ. Da U, V orthogonale Matrizen sind, sind die zugehörigen linearen Abbildungen Isometrien, d.h. für jedes x R m mit x = gilt V x =, damit ΣV x σ, damit Ax = UΣV x σ. Daraus folgt A σ. Umgekehrt: Ist v die erste Spalte von V, so gilt v = und V v = e, weil V orthogonal ist. Dann ist ΣV v = σ e und Av = UΣV v = σ, weil auch U orthogonal ist. Daraus folgt A σ. Satz 3. Sei A R n m. Dann gilt: A hat eine Singulärwertzerlegung, und für je zwei Singulärwertzerlegungen (U, Σ, V ), (U, Σ, V ) von A gilt Σ = Σ Beweis. Es ist leicht einzusehen, dass (U, Σ, V ) genau dann eine Singulärwertzerlegung von A ist, wenn (V, Σ, U ) eine Singulärwertzerlegung von A ist. Wir können deshalb o.b.d.a. annehmen, dass n m gilt. Für die Nullmatrix A = ist (I n,, I m ) eine Singulärwertzerlegung, und eine andere Wahl für Σ ist dann nicht möglich, weil U, V als orthogonale Matrizen insbesondere invertierbar sind. Für von Null verschiedene Matrizen zeigen wir die Behauptung durch Induktion nach n. n =. In diesem Fall ist A R m ein Zeilenvektor und wir können U = I, Σ = ( A,,..., ) und für V R m m eine beliebige orthogonale Matrix wählen, deren erste Spalte A A ist. Da U = V = gelten muss, bleibt für Σ auch keine andere Möglichkeit. n n. Nach Satz 2 ist A die einzige mögliche Wahl für den Eintrag σ von Σ. Wähle einen Vektor v R m mit A = Av und setze u = A Av. (Wegen A ist A.) Ergänze {v } zu einer ONB {v,..., v m } von R m und {u } zu einer ONB {u,..., u n } von R n. Setze V = (v,..., v m ) und U = (u,..., u n ). Dann gilt A V = ( A u,,..., ), also ( ) U A a AV = =: B A 2 für gewisse a R m und A 2 R (n ) (m ). Aus ( ) ( A a A A 2 a ) A 2 + a a = A 2 + a a ( ) A a 5-5 folgt B A 2 + a a. Andererseits gilt B A, weil U und V orthogonal sind. Daraus folgt a a =, und daraus a = und A = B. Aus B = A folgt außerdem A A 2. Nach Induktionsvoraussetzung gibt es U 2 R (n ) (n ), V 2 R (m ) (m ) und eindeutig bestimmte σ 2 σ 3 mit A σ 2 und 2 A 2 = U 2 σ σ 3 V

229 Wir erhalten mit ( ) A ( ( ) A = U σ 2 V U 2. V }{{}.. 2 }{{} =:U }{{} =:V =:Σ eine Darstellung der gewünschten Form. ( ) 4 Beispiel. Sei A =. Um eine Singulärwertzerlegung von A zu berechnen, geht man 3 5 vor wie im Beweis des Satzes. Als erstes braucht man einen Vektor v R 2 mit v =, für 4-28 den Av maximal wird. Wenn t durch die reellen Zahlen läuft, durchläuft v = ( t2 2t, ) +t 2 +t 2 die Punkte auf dem Einheitskreis außer (, ). Für diese Punkte ist ( Av = 4 t2 ) 2 ( + + t 2 3 t2 + t t ) 2 5(5t 4 2t 3 + t 2 + 2t + 5) = + t 2 + t 2. Dieser Ausdruck wird maximal für t = ± 2, und für den isolierten Punkt v = (, ) ist Av nicht größer. Daraus ergibt sich σ = A = 2 und v = ± 2 (, ). Für v = 2 (, ) folgt u = σ Av = 5 (, 2). Als Ergänzung zu Orthonormalbasen wählen wir v 2 = 2 (, ) und u 2 = 5 (2, ). Setze V = (v, v 2 ), U = (u, u 2 ). Wir haben dann Damit ist (U, Σ, V ) mit U = ( ) eine Singulärwertzerlegung von A. U AV = ( 2, Σ = ). ) ( ) 2, V = ( ) 2 Definition 72. Sei A R n m und (U, Σ, V ) eine Singulärwertzerlegung von A. Dann heißen die Einträge σ,..., σ min(n,m) auf der Diagonalen von Σ die Singulärwerte von A. Satz 4. Sei A R n m und sei (U, Σ, V ) eine Singulärwertzerlegung von A. Es seien σ,..., σ min(n,m) die Singulärwerte von A, und es sei r {,..., min(n, m)} maximal mit σ r. Schreibe U = (u,..., u n ), V = (v,..., v m ). Dann gilt:. Rang(A) = r. 2. {u,..., u r } ist eine ONB von im A. 3. {u r+,..., u n } ist eine ONB von coker A. 4. {v,..., v r } ist eine ONB von coim A {v r+,..., v m } ist eine ONB von ker A. Insbesondere gilt ker A coim A und coker A im A. 229

230 Beweis. Übung. 5-6 Satz 5. Sei A R n m. Dann gilt: σ R \ {} ist genau dann ein Singulärwert von A wenn σ 2 ein Eigenwert von AA R n n ist. Beweis. Ist (U, Σ, V ) eine Singulärwertzerlegung von A, so gilt A = UΣV und AA = UΣV V Σ U = UΣΣ U. Die Matrix ΣΣ R n n ist eine Diagonalmatrix, auf deren Diagonale die Quadrate der Diagonaleinträge von Σ stehen. Im Fall n > m ist die Diagonale von ΣΣ länger als die von Σ; die zusätzlichen Diagonaleinträge sind Null. ( ) ( ) Beispiel. Für A = gilt AA 3 5 =. Die Eigenwerte von AA 2 34 sind 4 und, die Singulärwerte von A sind daher 2 und. Wir können darüber hinaus auch U und V berechnen. Da AA symmetrisch ist, ist die Matrix nach Satz 5 diagonalisierbar und es gibt eine ONB aus Eigenvektoren. Tatsächlich gilt ( ) AA 4 = U U für U = ( ) Gesucht ist jetzt eine orthogonale Matrix V mit A = UΣV, wobei Σ = diag(2, ) ist. Im vorliegenden Beispiel sind A und U und Σ invertierbar, so dass die einzige mögliche Wahl für V die Matrix Σ U A = ( ). Also ist V = ( ). 2 2 Satz 6. Sei A R n m \ {}, r = Rang A. Dann gibt es Vektoren v,..., v r R m und u,..., u r R n, so dass A = u v + + u r v r, wobei mit u i v i das Matrixprodukt des Spaltenvektors u i (als (n )-Matrix) mit dem Zeilenvektor v i (als ( m)-matrix) gemeint ist. Beweis. Sei (U, Σ, V ) eine Singulärwertzerlegung von A. Schreibe U = (u,..., u n ), V = (v,..., v m ), und σ σ r > für die Singulärwerte von A. Dann gilt A = UΣV, also A = u σ v + + u r σ r v r. Wenn r viel kleiner ist als min(n, m), dann braucht die Darstellung von A aus Satz 6 wesentlich weniger Speicher als die gewöhnliche Darstellung, nämlich nur r(n + m) Zahlen statt nm Zahlen. In praktischen Anwendungen gilt zwar meistens Rang(A) = min(n, m), aber man kann A zu einer Matrix mit kleinerem Rang runden, indem man kleine Singulärwerte durch Null ersetzt. Je näher die gestrichenen Singulärwerte bei liegen, desto weniger Information über A geht bei der Streichung verloren. Beispiel. Ein Schwarz-Weiß-Bild lässt sich durch eine Matrix codieren, deren (i, j)-eintrag den Grauwert des Bildes am Bildpunkt (i, j) beinhaltet. Betrachte das Bild A = R, 23

231 wobei schwarz durch und weiß durch codiert wird. Im folgenden Diagramm ist jeder zehnte Singulärwert von A dargestellt. Die größten Singulärwerte lauten , 6.563, 6.8, 52.42, ,... ; die zugehörigen Balken sind im Diagramm abgeschnitten. Die kleisten sind ,.22873,.83866; auch sie sind kaum zu sehen Sei A = UΣV eine Singulärwertzerlegung von A. Für k {,..., } sei Σ k die Diagonalmatrix, die man aus Σ = diag(σ, σ 2,..., σ ) erhält, indem man die Einträge σ k+,..., σ auf Null setzt. Dann lässt sich die Matrix A k := UΣ k V R gemäß Satz 6 durch 2k Zahlen codieren. Je kleiner k gewählt wird, desto größer wird die Einsparung gegenüber der Abspeicherung aller = 6 Einträge von A. Allerdings sollte man k auch nicht zu klein wählen, weil sonst die Bildqualität sichtbar beeinträchtigt wird. A 7 = A 4 = A = A 7 = A 4 = A = A 7 = A 4 = A = 23

232 Teil VII Modultheorie 232

233 37 Grundbegriffe Zur Erinnerung: Ein Ring ist eine algebraische Struktur R = (R, +, ) mit zwei Verknüpfungen +, : R R R, die die gleichen Gesetze erfüllen wie bei Körpern, außer dass nicht kommutativ sein muss und dass es nicht zu jedem von Null verschiedenen Element des Rings ein multiplikatives Inverses geben muss. Typische Beispiele für Ringe sind Z, K[X] und K n n. In Def. 5 haben wir noch Ringe mit und ohne Einselement unterschieden. Ab jetzt betrachten wir nur noch Ringe mit Einselement, ohne immer explizit mit Eins dazuzusagen. Definition 73. Sei R ein Ring, (M, +) eine abelsche Gruppe und : R M M eine Abbildung, so dass für alle r, r, r 2 R und alle m, m, m 2 M gilt. (r + r 2 ) m = r m + r 2 m (r r 2 ) m = r (r 2 m) 3. r (m + m 2 ) = r m + r m 2 4. m = m Dann heißt (M, +, ) ein Modul (engl. module) über R, oder kurz: ein R-Modul. Wenn M zugleich ein R-Modul und auch eine Teilmenge von R ist und die auf M erklärte 5-5 Addition mit der Addition von R übereinstimmt, dann heißt M ein Ideal (engl. ideal) von R. Mit anderen Worten: Ein Ideal von R ist eine Teilmenge I R, so dass a + b I für alle a, b I und ra I für alle a I und alle r R gilt. 5-5 Die Definition unterscheidet sich von der Definition eines Vektorraums (Def. 29) nur dadurch, dass statt eines Körpers ein Ring zugrunde gelegt wird. Der Begriff des Moduls ist also eine Verallgemeinerung des Begriffs des Vektorraums. Zur Sprechweise: Im Sinn von Def. 73 spricht man von dem Modul (männlich, Betonung auf der ersten Silbe, Plural: die Moduln). Es handelt sich dabei lexikalisch um ein anderes Wort als das Modul (sächlich, Betonung auf der zweiten Silbe, Plural: die Module). Beispiel.. Da jeder Körper insbesondere ein Ring ist, ist jeder Vektorraum insbesondere ein Modul. 2. Ist R ein beliebiger Ring, so ist R ein Modul über sich selbst. Allgemeiner: die Menge R n := {(r,..., r n ) : r,..., r n R} wird mit den Verknüpfungen r s r + s r ar. +. :=., a. :=. r n s n r n + s n r n ar n zu einem R-Modul. Ebenso die Menge R n m = (R n ) m aller n m-matrizen mit Einträgen in R und die Menge R[X] aller Polynome mit Koeffizienten in R. 233

234 Noch allgemeiner: Ist S irgendeine Menge, so wird die Menge R S f : S R zu einem Modul, wenn man definiert aller Funktionen f + g : S R, af : S R, (f + g)(x) := f(x) + g(x) (af)(x) := af(x). 3. Jede abelsche Gruppe (G, +) lässt sich auffassen als Z-Modul, wenn man definiert m g := Zum Beispiel ist (Z 6, +) ein Z-Modul. m Terme {}}{ g + g + + g falls m > falls m = ( g) + + ( g) }{{} m Terme falls m < Auch (Z 7 \ {[] 7 }, ) ist eine abelsche Gruppe und damit ein Z-Modul. In diesem Fall muss man aufpassen, dass man sich nicht von der Notation verwirren lässt, weil die Gruppenoperation nicht mit + sondern mit geschrieben wird. Zum Beispiel gilt hier 3 [2] 7 = [2] 3 7 = [2 3 ] 7 = [] 7, und nicht etwa 3 [2] 7 = [6] 7. (R, +) und (R \ {}, ) sind auch abelsche Gruppen und damit Z-Moduln. 4. Sind x, x 2 R 2 beliebige Vektoren, so ist Zx + Zx 2 = { a x + a 2 x 2 : a, a 2 Z } R 2 zusammen mit der Addition und der Skalarmultiplikation von R 2 ein Z-Modul. Einen solchen Modul nennt man ein Gitter (engl. lattice). x x 2 5. Sind x, x 2, x 3 R beliebige Zahlen, so ist { (e, e 2, e 3 ) Z 3 : e x + e 2 x 2 + e 3 x 3 = } Z 3 ein Z-Modul. 234

235 Allgemeiner: Ist R ein Ring, M ein R-Modul, und sind x,..., x n M, so ist Syz(x,..., x n ) := { (e,..., e n ) R n : e x + + e n x n = } R n ein R-Modul, der sogenannte Syzygienmodul von x,..., x n. Variante: Sind x, x 2, x 3 R \ {} beliebige Zahlen, so ist auch ein Z-Modul. { (e, e 2, e 3 ) Z 3 : x e xe 2 2 xe 3 3 = } Z3 6. Ist U Q n ein Untervektorraum von Q n, so ist U Z n ein Z-Modul. 7. Ideale: Jeder Ring R ist ein Ideal in sich selbst Z = {..., 6,, 6, 2,... } Z ist ein Z-Modul und zugleich eine Untergruppe von (Z, +). Es handelt sich also um ein Ideal. { p Q[X] : X p } Q[X] ist ein Ideal von Q[X]. Nach Satz 8 gilt: Für jede Matrix A K n n ist die Menge aller annihilierenden Polynome von A ein Ideal des Rings K[X]. { 2a + Xb : a, b Z[X] } ist ein Ideal von Z[X]. 8. Sei p Z eine Primzahl und Z (p) := { u v Q : gcd(v, p) = }. Dann ist Z (p) ein Ring (der sogenannte Ring der p-adischen ganzen Zahlen). Die additiven Gruppen von Q, Q( 2), R und C lassen sich als Z (p) -Moduln auffassen. Allgemeiner: Sind R, R 2 zwei Ringe mit R R 2, wobei die Addition und Multipliation von R mit der von R 2 übereinstimmt, und ist M ein R 2 -Modul, dann ist M auch ein R -Modul. Noch allgemeiner: Sind R, R 2 zwei Ringe, M ein R 2 -Modul und h: R R 2 ein Ring- Homomorphismus (d.h. eine Abbildung mit h(a+b) = h(a)+h(b) und h(ab) = h(a)h(b) für alle a, b R ), so wird M durch die Operation R -Moduloperation R 2 -Moduloperation r m R M := h(r) m }{{} R 2 zu einem R -Modul. Die Eigenschaften dieses Moduls hängen ganz wesentlich von der Wahl von h ab. Dieselbe Menge M kann also auf ganz unterschiedliche Art Modul ein und desselben Rings sein. (Das ist bei Vektorräumen nicht anders.) 9. Die Menge M = C ([, ], R) der beliebig oft differenzierbaren Funktionen wird mit der Operation zu einem R[X]-Modul. (p + p X + + p n X n ) f := p f + p f + + p n f (n) 235

236 . Umgekehrt: Ist M = R[X] und R = C ([, ], R) der Ring der beliebig oft differenzierbaren Funktionen (mit punktweiser Addition und Multiplikation als Ringoperationen), dann wird M z.b. mit der Operation f (p + p X + + p n X n ) := p f() + p f ()X + + p n f (n) ()X n zu einem R-Modul.. K n wird mit der üblichen Matrix-Vektor-Multiplikation zu einem K n n -Modul. 2. Für jedes fest gewählte A K n n wird K n zu einem K[X]-Modul, wenn man definiert p v := p(a)v Sei a K[X] fest. Für p = p + p X + + p d X d K[X] definiert man p(a) := p + p a + + p d a d K[X]. Der Ring K[X] wird zusammen mit der Operation : K[X] K[X] K[X], p q := p(a)q zu einem K[X]-Modul. Definition 74. Sei R ein Ring und M ein R-Modul.. N M heißt Untermodul (engl. submodule) von M, falls gilt N und für alle r, r 2 R und alle n, n 2 N gilt r n + r 2 n 2 N. 2. Eine Menge E M heißt Erzeugendensystem (engl. generating set) von M, falls gilt: für jedes m M existieren e,..., e n E und r,..., r n R mit m = r e + + r n e n. Ist E ein Erzeugendensystem von M, so schreibt man M = E. Statt {e,..., e m } schreibt man auch e,..., e m. 3. Der Modul M heißt endlich erzeugt (engl. finitely generated), falls es ein Erzeugendensystem von M mit nur endlich vielen Elementen gibt. Beispiel.. Z n ist ein Untermodul von R n. 2. Ideale sind Untermoduln des Rings R, aufgefasst als Modul über sich selbst. 3. R ist als Z-Modul nicht endlich erzeugt. 4. Ein Erzeugendensystem von R[X] als R-Modul ist {, X, X 2,... }. Ein Erzeugendensystem von Z 2 als Z-Modul ist { ( ), ( ) }. Dass die Theorie der Moduln wesentlich komplizierter ist als die Theorie der Vektorräume, liegt vor allem daran, dass die Theorie der Ringe wesentlich komplizierter ist als die der Körper. Ringe können sehr unterschiedliche Eigenschaften haben, und natürlich sind auch die zugehörigen Moduln von sehr unterschiedlicher Natur. Uns interessieren in den folgenden Abschnitten vor allem Moduln über Ringen, die noch eine gewisse Ähnlichkeit zu Körpern haben. Moduln über solchen Ringen haben dann eine gewisse Ähnlichkeit zu Vektorräumen. 236

237 Definition 75.. Ein Ring R heißt nullteilerfrei, falls gilt: a, b R : ab = a = b =. (Ein Element a R heißt Nullteiler (engl. zero divisor), falls b R \ {} : ab = ba =.) Ein kommutativer nullteilerfreier Ring heißt Integritätsbereich (engl. integral domain). 3. Ein Integritätsbereich R heißt Hauptidealring (engl. principal ideal domain), falls es für jedes Ideal A R ein Element a R gibt mit A = a. 5-8 Ring nullteilerfreier Ring kommutativer Ring Integritätsbereich Hauptidealring Körper Beispiel.. Der Ring K n n ist weder kommutativ noch nullteilerfrei, denn z.b. gilt ( ) ( ) ( ) = }{{}}{{} 2. Der Ring Z 6 ist kommutativ, aber nicht nullteilerfrei, denn z.b. gilt [2] }{{ 6 [3] } 6 = [6] }{{} 6 = [] 6 3. Der Ring Z[X] ist ein Integritätsbereich, aber kein Hauptidealring. Zum Beispiel das Ideal 2, X lässt sich nicht von einem einzigen Element aus Z[X] erzeugen, denn so ein Erzeuger müsste sowohl ein Teiler von 2 als auch ein Teiler von X sein. Da kommt nur 5-3 in Frage, aber liegt nicht in 2, X. Man kann zeigen, dass der Polynomring R[X] über einem Ring R genau dann ein Hauptidealring ist, wenn R ein Körper ist

238 4. Der Ring K[X] ist ein Hauptidealring, denn in diesem Ring gilt 5-3 p,..., p n = gcd(p,..., p n ) für jede Wahl p,..., p n K[X]. Analog ist auch Z ein Hauptidealring. 5. Jeder Körper ist ein Hauptidealring. In einem Körper gibt es nämlich nur die beiden Ideale {} und = K. 38 Konstruktionen Satz 7. Sei R ein Ring und M ein R-Modul. Seien N, N 2 M Untermoduln von M. Dann gilt:. Der Schnitt N N 2 ist ein Untermodul von M. 2. Die Summe N + N 2 := { n + n 2 : n N, n 2 N 2 } M ist ein Untermodul von M. Beweis. Genau wie für Satz 37. Wenn N, N 2 M so sind, dass N N 2 = {} ist, dann spricht man von einer direkten Summe und kann N N 2 statt N + N 2 schreiben. Satz 8. Sei R ein Ring und M, M 2 seien R-Moduln. Dann ist auch M M 2 zusammen mit der Operation ein R-Modul. : R (M M 2 ) M M 2, r (m, m 2 ) := (r m, r m 2 ) Beweis. Genau wie für Satz 45. Satz 9. Sei R ein Ring, M ein R-Modul und N ein Untermodul von M. Auf M wird durch m m 2 : m m 2 N eine Äquivalenzrelation erklärt. Die Menge M/N := M/ der Äquivalenzklassen bildet zusammen mit der Operation einen R-Modul. Beweis. Genau wie für Satz 46. : R M/N M/N, r [m] := [rm] Definition 76. Der Modul M/N aus dem vorigen Satz heißt der Quotientenmodul (engl. quotient module) von M nach N. 238

239 Beispiel.. Z 6 = Z/6Z. 2. Betrachte die Menge R der reellen Zahlen als Z-Modul. Die Elemente von R kann man sich bekanntlich als Punkte auf einer Geraden (der Zahlengeraden ) veranschaulichen. Zur Veranschaulichung der Elemente von R/Z bietet sich statt einer Gerade ein Kreis mit Umfang an. Wenn man sich vorstellt, dass die Zahlengerade auf diesem Kreis aufgewickelt wird, dann kommen genau die zueinander äquivalenten Elemente von R auf denselben Kreispunkten zu liegen. Zum Beispiel ist [ 3 4 ] = Z = {..., 4, 3 4, 7 4,... }. [] = Z 2 R 2 [ 3 4 ] [ 4 ] [ 2 ] R/Z Auch R 2 lässt sich als Z-Modul interpretieren. Die Elemente von R 2 sind Punkte der Ebene. Die Menge {} Z bildet einen Untermodul von R 2, und die Elemente von R 2 /({} Z) kann man sich vorstellen als die Punkte auf einem unendlich langen Zylinder, um den die Ebene R 2 gewickelt wurde. Interessant ist auch der Z-Modul R 2 /Z 2 : dieser entsteht, indem man die Ebene zunächst um eine der Achsen zu einem Zylinder aufwickelt, und den Zylinder dann um die andere Achse wickelt, so dass ein Torus-artiges Gebilde entsteht. R 2 R 2 /({} Z) R 2 /Z 2 Definition 77. Sei R ein Ring und seien M, M 2 zwei R-Moduln. Eine Funktion h: M M 2 heißt (Modul-)Homomorphismus, falls gilt r, r 2 R m, m 2 M : h(r m + r 2 m 2 ) = r h(m ) + r 2 h(m 2 ). Ist h: M M 2 ein Homomorphismus, so heißt ker h := { m M : h(m) = } M 239

240 der Kern von h und im h := { h(m) : m M } M 2 das Bild von h. Ein bijektiver Homomorphismus heißt Isomorphismus, und M, M 2 heißen (zueinander) isomorph, geschrieben M = M2, falls es einen Isomorphismus h: M M 2 gibt. Satz 2. Sei R ein Ring.. Die Verkettung zweier Homomorphismen ist ein Homomorphismus. Die Umkehrfunktion eines Isomorphismus ist ein Isomorphismus. 2. Für je drei R-Moduln M, M 2, M 3 mit gilt M = M, M = M2 M 2 = M, M = M 2, M 2 = M3 M = M3. 3. Sind M, M 2 zwei R-Moduln und ist h: M M 2 ein Homomorphismus, so ist ker h ein Untermodul von M und im h ein Untermodul von M 2. Beweis. Genau wie für Satz 48. Satz 2. (Homomorphiesatz für Moduln) Sei R ein Ring, M, M 2 seien R-Moduln, h: M M 2 sei ein Homomorphismus. Dann gibt es einen surjektiven Homomorphismus g : M M / ker h und einen injektiven Homomorphismus f : M / ker h M 2, so dass h = f g. Wenn h surjektiv ist, dann ist auch f surjektiv. Insbesondere gilt immer M / ker h = im h. Beweis. Genau wie für Satz 54. M g h M / ker h f M 2 Beispiel. Sei R = Z, M = Z 2, M 2 = Z 6 und h: M M 2, h(x, y) = [2x + 3y] 6. Es ist klar, dass h ein Z-Modulhomomorphismus ist. Wegen h(, ) = [] 6 h(, ) = [] 6 h(, ) = [2] 6 h(, )= [3] 6 h(2, )= [4] 6 h(, )= [5] 6 ist im h = Z 6 (d.h. h ist surjektiv). Was ist der Kern? Wegen h(3, ) = h(, 2) = [] 6 gehören zumindest (3, ) und (, 2) zum Kern, und damit auch alle Z-Linearkombinationen dieser beiden Vektoren: 24

241 Weitere Vektoren enthält der Kern nicht. Wenn nämlich (x, y) Z 2 im Kern ist, dann auch (x, y) + a(3, ) + b(, 2) für jede Wahl von a, b Z. Für jedes gegebene (x, y) Z 2 lassen sich a, b Z finden, so dass (x, y) + a (3, ) + b (, 2) {(, ), (, ), (2, ), (, ), (, ), (2, )} ist, und da von diesen Punkten (, ) der einzige ist, an dem h den Wert annimmt, kann (x, y) Z 2 nur dann im Kern liegen, wenn es eine Z-Linearkombination von (3, ) und (, 2) ist. Es gilt also ker h = ( ( 3 ), ( 2) = Z 3 ( ) + Z ) 2, und aus dem Satz folgt, dass Z 2 / ( ( 3 ), 2) und Z 6 als Z-Moduln isomorph sind. Definition 78. Sei R ein Ring, M, M 2 seien zwei R-Moduln. Dann wird die Menge aller Homomorphismen h: M M 2 mit Hom(M, M 2 ) bezeichnet. Genau wie im Fall der Vektorräume wird Hom(M, M 2 ) zusammen mit den Operationen zu einem R-Modul. h + h 2 := x h (x) + h 2 (x) r h := x rh(x) Damit sind alle Konstruktionen, die wir für Vektorräume behandelt haben, auf den Fall von Moduln übertragen, mit Ausnahme des Tensorprodukts. Für dessen Definition haben wir im Abschnitt 5 verwendet, dass jeder Vektorraum eine Basis hat. Das geht bei Moduln nicht so einfach, denn wie wir bald sehen werden, hat nicht jeder Modul eine Basis. Die Definition des Tensorprodukts U V zweier K-Vektorräume U, V war so gemacht, dass die Elemente von U V Linearkombinationen von Paaren (u, v) sind, wobei u ein Basiselement von U und v ein Basiselement von V ist. Für die Paare (u, v) schreibt man u v. Die Notation u v wurde dann erweitert auf beliebige Elemente u U, v V, wobei sich herausstellte, dass folgende Rechenregeln gelten: (u +u 2 ) v = (u v)+(u 2 v), u (v +v 2 ) = (u v )+(u v 2 ) und α(u v) = (αu) v = u (αv) für alle u, u, u 2 U, v, v, v 2 V und α K. Für das Tensorprodukt von Moduln geht man von Linearkombinationen beliebiger Paare (u, v) U V aus. Das ergibt zunächst einen viel zu großen Modul. Durch Quotientenbildung unterwirft man die formalen Linearkombinationen in diesem Modul den Rechenregeln, die für Tensoren erfüllt sein sollen. Das ist eine sehr typische Anwendung von Quotientenbildung: Man beginnt mit einem großen Raum aller Ausdrücke und dividiert dann die Relationen heraus, die zwischen den Ausdrücken gelten sollen. Definition 79. Sei R ein kommutativer Ring.. Sei S eine Menge und F R (S) die Menge aller Funktionen f : S R mit {x S : f(x) } <. Dann heißt F R (S) (zusammen mit den naheliegenden Operationen) der freie R-Modul über S. 24

242 Für f F R (S) mit f(s ) = r,..., f(s n ) = r n und f(s) = für alle s S \ {s,..., s n } verwendet man die Notation f = r s + + r n s n Seien M, M 2 zwei R-Moduln und E = { α(u, v) (αu, v) : α R, u M, v M 2 } { α(u, v) (u, αv) : α R, u M, v M 2 } { (u, v) + (u 2, v) (u + u 2, v) : u, u 2 M, v M 2 } { (u, v ) + (u, v 2 ) (u, v + v 2 ) : u M, v, v 2 M 2 } F R (M M 2 ). Dann heißt M R M 2 := F R (M M 2 )/ E das Tensorprodukt von M und M 2. Statt [(m, m 2 )] schreibt man m m 2. Beispiel. Es gilt R[X] R R[Y ] = R[X][Y ]. Jedes Element von F R (R[X] R[X]) hat zunächst die Form r (p, q ) + + r n (p n, q n ) für gewisse r,..., r n R, p,..., p n R[X], und q,..., q n R[Y ]. Dabei hat jedes p i die Form p i = p i, + p i, X + + p i,d X d für gewisse p i,j R und jedes q i hat die Form q i = q i, + q i, Y + + q i,d Y d für gewisse q i,j R. Modulo E ist jedes Paar (p, q) R[X] R[Y ] äquivalent zu einer Linearkombination s, (, ) + s, (, Y ) + + s,d (, Y d ) +s, (X, ) + s, (X, Y ) + + s,d (X, Y d ) + für gewisse s,,..., s d,d R, z.b. +s d, (X d, ) + s d, (X d, Y ) + + s d,d (X d, Y d ) (3 + 4X X 2, Y ) (3 + 4X X 2, ) + (3 + 4X X 2, Y ) (3 + 4X X 2, ) (3 + 4X X 2, Y ) (3, ) + (4X, ) + ( X 2, ) (3, Y ) (4X, Y ) ( X 2, Y ) 3(, ) + 4(X, ) (X 2, ) 3(, Y ) 4(X, Y ) + (X 2, Y ). Damit ist jede R-Linearkombination von Paaren (p, q) R[X] R[Y ] modulo E äquivalent zu einer R-Linearkombination von Paaren (X i, Y j ) mit i, j N. Die Elemente von R[X] R R[Y ] = F R (R[X] R[Y ])/ E lassen sich deshalb interpretieren als Polynome in zwei Variablen X, Y mit Koeffizienten in R. 242

243 39 Freiheit und Torsion Definition 8. Sei R ein Ring und M ein R-Modul.. Eine Menge E M heißt linear unabhängig, falls für jede Wahl von paarweise verschie denen Elementen e,..., e n E gilt: r,..., r n R : r e + + r n e n = r = = r n =. 2. Ein linear unabhängiges Erzeugendensystem von M heißt Basis von M. 3. M heißt frei (engl. free), falls M eine Basis hat. Beispiel.. Jeder K-Vektorraum ist wegen Satz 43 ein freier K-Modul. 4-7, { ( ( ), ) } ist eine Basis des Z-Moduls Z Der Z-Modul Z 6 = Z/6Z hat keine Basis, denn für jedes e Z 6 gilt 6 e = [] 6, und als Element von Z ist r = 6 von Null verschieden. Die einzige linear unabhängige Teilmenge von Z 6 ist deshalb die leere Menge, und diese ist offensichtlich kein Erzeugendensystem von Z 6. Erzeugendensysteme von Z 6 sind {[] 6 } und {[5] 6 }. Die Mengen {[2] 6 }, {[3] 6 }, {[4] 6 } sind keine Erzeugendensysteme von Z 6, sondern erzeugen echte Untermoduln. Aber z. B. {[2] 6, [3] 6 } ist auch ein Erzeugendensystem von Z 6. Bei Moduln kann es also sein, dass ein Erzeugendensystem minimal ist in dem Sinn, dass keine echte Teilmenge ebenfalls ein Erzeugendensystem ist (wie z.b. {[2] 6, [3] 6 }), es aber trotzdem auch ein Erzeugendensystem mit weniger Elementen gibt (wie z.b. {[] 6 }). Bei Vektorräumen geht das nicht. 4. Das Ideal I = 2, X Z[X] wird von E = {2, X} erzeugt. Es handelt sich dabei aber nicht um eine Basis, weil X 2 2 X =, d.h. 2 und X sind linear abhängig über Z[X]. Die Teilmengen {2} und {X} von E sind zwar linear unabhängig, bilden aber keine Basen von I, weil 2 X und X 2. Tatsächlich hat I gar keine Basis. 5. Q ist als Z-Modul nicht frei. Für jede Wahl von u v, p q Q gilt (vp) u v (uq) p q =, d.h. 5-8 je zwei Elemente von Q sind über Z linear abhängig. Linear unabhängige Teilmengen von Q können deshalb höchstens ein Element enthalten. Es gibt aber keine Erzeugendensysteme von Q mit nur einem Element, denn für jede Wahl von e Q \ {} gilt e e = Ze, und {} ist natürlich auch kein Erzeugendensystem Ein Modul M ist genau dann frei, wenn es eine Menge S gibt, so dass M = F R (S) gilt. Satz 22. Sei R ein Hauptidealring und M ein endlich erzeugter freier Modul. Dann ist jeder Untermodul N von M auch endlich erzeugt und frei. 243

244 Beweis. Sei E = {e,..., e n } eine Basis von M. Wir zeigen durch Induktion nach i, dass N i := N e,..., e i für jedes i =,..., n frei und endlich erzeugt ist. Für i = ist {e,..., e i } = und e,..., e i = {} und N = {}, was sicher frei und endlich erzeugt ist. Induktionsschritt i i. Jedes m N i = N e,..., e i lässt sich schreiben als m = r e + + r i e i 5-8 für gewisse r,..., r i R. Die Menge aller r i R, die in diesen Darstellungen auftreten können, bildet ein Ideal von R, und nach Annahme über R ist dieses Ideal von einem Element erzeugt. Sei r R so ein Erzeuger. Falls r = ist, ist N i = N i und das ist nach Induktionsvoraussetzung frei und endlich erzeugt. Wenn r ist, wähle ein m N i, das sich schreiben lässt als m = r e + + r i e i + re i für gewisse r,..., r i R. Nach Induktionsvoraussetzung hat N i eine endliche Basis {b,..., b k }. Wir zeigen, dass B := {b,..., b k, m} eine Basis von N i ist. B ist linear unabhängig: Seien s,..., s k, s R so, dass s b + +s k b k +sm = ist. Wenn s ist, dann ist sm eine Linearkombination von e,..., e i, in der e i explizit vorkommt, weil r ist und R als Hauptidealring keine Nullteiler hat. Da die b,..., b k nur Linearkombinationen von e,..., e i sind, wäre auch s b + +s k b k +sm eine Linearkombination von e,..., e i, in der e i explizit vorkommt. Eine solche kann es nicht geben, weil {e,..., e n } linear unabhängig ist. Es gilt also auf jeden Fall s =. Daraus folgt aber sofort auch s = = s k =, weil {b,..., b k } als Basis von N i linear unabhängig ist. B ist ein Erzeugendensystem, weil nach Wahl von r jedes m N i von der Form m = rm + n für ein r R und ein n N i ist. 4 7 Beispiel. M = Z 3 ist ein endlich erzeugter freier Modul. N = 2, 5, 8 ist ein Untermodul. Das angegebene Erzeugendensystem ist nicht linear unabhängig, aber nach dem Satz muss es auch ein linear unabhängiges Erzeugendensystem von N geben. Ein solches findet man im allgemeinen nicht dadurch, dass man eine Basis des Q-Untervektorraums 4 7 2, 5, 8 Q 3 berechnet, deren Einträge in Z liegen. Dieser Vektorraum enthält nämlich zum Beispiel das Element = , das in Z 3 liegt, aber nicht in N. (Das sieht man z.b. daran, dass N nur Vektoren enthält, deren dritte Koordinate durch drei teilbar ist, weil dasschon für alle drei Elemente des 2 Erzeugendensystems so ist.) Eine Basis von N ist {, }. Wie man eine solche Basis 3 findet, werden wir im folgenden Abschnitt sehen. 244

245 Definition 8. Sei R ein Integritätsbereich und M ein R-Modul.. Ein Element m M heißt Torsionselement (engl. torsion element), falls es ein r R \ {} gibt mit rm =. 2. Die Menge M tor aller Torsionselemente von M heißt der Torsionsuntermodul (engl. torsion submodule) von M. 3. M heißt Torsionsmodul (engl. torsion module), falls M = M tor ist, und torsionsfrei (engl. torsion-free), falls M tor = {} ist. Beispiel.. Z 6 ist ein Torsionsmodul, denn für jedes x Z 6 gilt 6 x =. 2. Z 6 ist torsionsfrei. Allgemeiner: jeder freie Modul ist torsionsfrei. Insbesondere ist jeder 5-8 K-Vektorraum, aufgefasst als K-Modul, torsionsfrei, d.h. für jeden K-Vektorraum V gilt V tor = {}. 3. M = K n n ist als K[X]-Modul im Sinn von Definition 57 ein Torsionsmodul, weil nach Satz 8 für jedes A M ein p K[X] \ {} existiert mit p(a) =. 4. Q ist als Z-Modul torsionsfrei, aber nicht frei. Q/Z ist ein Torsionsmodul, weil für jedes p q Q gilt q p q = p Z = [], also q [ p q ] = []. R/Z ist weder frei noch torsionsfrei. Es gilt (R/Z) tor = Q/Z. Satz 23. von M. Sei R ein Integritätsbereich und M ein R-Modul. Dann ist M tor ein Untermodul Beweis. Auf jeden Fall gilt =, also M tor, also M tor. Seien nun r, r 2 R und m, m 2 M tor. Zu zeigen: r m + r 2 m 2 M tor, d.h. es gibt ein s R \ {} mit s(r m + r 2 m 2 ) =. 5-2 Wegen m, m 2 M tor gibt es s, s 2 R \ {} mit s m = s 2 m 2 =. Wähle s = s s 2. Dann gilt s, weil R ein Integritätsbereich ist, und 5-2 s(r m + r 2 m 2 ) = s s 2 (r m + r 2 m 2 ) wie gewünscht. = s s 2 r m + s s 2 r 2 m 2 = s 2 r s m }{{} +s r 2 s 2 m 2 =, }{{} = = Satz 24. Sei R ein Integritätsbereich und M ein R-Modul. Dann ist M/M tor torsionsfrei. Beweis. Sei m M beliebig. Zu zeigen: Wenn r R \ {} so ist, dass r [m] = [] ist, dann ist [m] = [], also m M tor. Sei also r R \ {} so, dass r [m] = []. Dann gilt rm M tor, dann existiert s R \ {} mit s(rm) =, dann (sr)m =. Weil R Integritätsbereich ist, ist sr. Also gilt m M tor. 245

246 Satz 25. Sei R ein Integritätsbereich und M ein endlich erzeugter R-Modul. Dann gibt es einen freien Untermodul M von M, so dass M/M ein Torsionsmodul ist. Beweis. Sei E ein endliches Erzeugendensystem von M und E E eine linear unabhängige Teilmenge von E, die maximal ist in dem Sinn, dass E {e} für jedes e E \ E linear abhängig ist. Dann ist M := E ein freier Untermodul von M. Wir zeigen, dass M/M ein Torsionsmodul ist. Nach Wahl von E ist E {e} für jedes e E \ E linear abhängig, etwa ae + r e + + r m e m = für gewisse a, r,..., r m R und e,..., e m E. Da E linear unabhängig ist, muss a sein. Andererseits ist ae E = M, d.h. a [e] = [] in M/M, d.h. e ist ein Torsionselement. Da {[e] : e E \ E } ein Erzeugendensystem von M/M ist und Linearkombinationen von Torsionselementen wieder Torsionselemente sind (Satz 23), folgt die Behauptung. Satz 26. Sei R ein Hauptidealring und M ein R-Modul. Wenn M endlich erzeugt und torsionsfrei ist, dann ist M auch frei. 5-2 Beweis. Sei E ein endliches Erzeugendensystem von M und sei E = {e,..., e n } E eine linear unabhängige Teilmenge, die maximal ist in dem Sinn, dass E {e} für jedes e E \E linear abhängig ist. Schreibe E \ E = {u,..., u k }. Dann gibt es für jedes i =,..., k ein a i R sowie r,..., r n R, so dass a i, r,..., r n nicht alle Null sind und a i u i = r e + + r n e n gilt, d.h. es gilt a i u i E. Wegen der linearen Unabhängigkeit von E muss a i sein. Mit a = a a 2 a k gilt dann au i E für alle i. Für den Homomorphismus h: M M, h(x) = ax gilt deshalb im h E. Weil a ist und M torsionsfrei, gilt ker h = {}. Aus Satz 2 folgt deshalb M = M/ ker h = im h E. Als Untermodul des freien und endlich erzeugten Moduls E ist im h nach Satz 22 ebenfalls frei und endlich erzeugt (hier geht ein, dass R ein Hauptidealring ist). Daraus folgt wegen M = im h schließlich, dass M frei ist. Satz 27. Sei R ein Hauptidealring, M ein endlich erzeugter R-Modul. Dann existiert ein freier Untermodul F von M, so dass M = F M tor. Beweis. Betrachte den Homomorphismus h: M M/M tor mit h(m) = [m]. Es ist klar, dass ker h = M tor ist und dass h surjektiv ist. Nach Satz 24 ist M/M tor torsionsfrei. Weil M endlich erzeugt ist, ist auch M/M tor endlich erzeugt. Weil R ein Hauptidealring ist, folgt nach Satz 26 aus torsionsfrei und endlich erzeugt, dass M/M tor frei ist. Sei {b,..., b k } eine Basis von M/M tor. Da h surjektiv ist, gibt es m,..., m k M mit h(m ) = b,..., h(m k ) = b k. Die Elemente m,..., m k M sind linear unabhängig, weil b,..., b k M/M tor linear unabhängig sind. Also ist F := m,..., m k ein freier Untermodul von M. Es gilt F M tor = {}, weil F M tor als Untermodul des freien Moduls F auch frei ist und freie Moduln keine anderen Torsionselemente als enthalten können. 246

247 Es gilt auch M = F +M tor, denn ist x M beliebig, so ist h(x) = r b + +r k b k für gewisse r,..., r k R. Dann gilt x r m + + r k m k, also für ein gewisses m M tor. x = r m + + r k m }{{ k + m } F 4 Lineare Gleichungssysteme über Ringen Sei R ein Ring und A R n m eine Matrix mit Einträgen in R. Die Multiplikation von Matrizen über Ringen ist definiert wie bei Körpern (Def. 9). Für gegebenes A R n m ist die Menge ker R A := { x R m : Ax = } ein Untermodul von R m, und man kann sich fragen, wie man ein Erzeugendensystem für diesen Untermodul konstruiert. Die Frage ist also, wie man ein lineares Gleichungssystem a, x + + a,m x m = a n, x + + a n,m x m = löst, wenn die a i,j gegebene Ringelemente sind und die Variablen x j für unbekannte Elemente des Rings stehen. Es ist kein Lösungsverfahren bekannt, das für beliebige Ringe funktioniert. Andererseits wissen wir aus Abschnitt 9, dass es ein allgemeines Lösungsverfahren für den Fall gibt, dass der Ring ein Körper ist. Wir betrachten jetzt den Fall, wo der Ring ein Hauptidealring ist. In diesem Fall ist R m ein freier Modul und ker R A als Untermodul von R m nach Satz 22 auch frei. Wir können also nach einer Basis von ker R A fragen. Wir können ebenso nach einer Basis des R-Untermoduls von R m fragen, der von den Zeilen von A erzeugt wird. Klar ist, dass sich dieser Untermodul nicht ändert, wenn man eine Zeile von A mit einem Element c R multipliziert, das in R ein multiplikatives Inverses besitzt, das c-fache einer Zeile zu einer anderen dazuaddiert, für ein beliebiges c R, zwei Zeilen vertauscht. Ist nämlich à eine Matrix, die auf diese Weise aus A entsteht, dann lässt sich jede R-Linearkombination von Zeilen von à auch als R-Linearkombination von Zeilen von A schreiben, und weil jede der genannten Operationen durch eine Operation des gleichen Typs rückgängig gemacht werden kann, ist auch jede R-Linearkombination von Zeilen von A eine R-Linearkombination von Zeilen von Ã. Die Operationen entsprechen der Multiplikation der Matrix von links mit Elementarmatrizen, die die Eigenschaft haben, dass ihre Einträge und auch die Einträge in ihren Inversen Ringelemente sind. Sie sind also als Elemente von R n n invertierbar. Wenn R ein Teilring eines Körpers K ist, kann es sein, dass eine Matrix A R n n als Element von K n n invertierbar ist, aber als Element von R n n nicht. Um Missverständnisse zu vermeiden, benutzt man deshalb statt invertierbar ein anderes Wort, wenn man Invertierbarkeit über dem Ring meint.. 247

248 Definition 82. Sei K ein Körper, R K ein Unterring von K (d.h. eine Teilmenge von K, die und enthält und bezüglich der Addition, Subtraktion und Multiplikation von K abgeschlossen ist). Sei A R n n A heißt invertierbar (engl. invertible), falls B K n n : AB = BA = I n. 2. A heißt unimodular, falls B R n n : AB = BA = I n. Die Menge aller unimodularen (n n)-matrizen über R wird mit GL(n, R) bezeichnet. Beispiel. ( ) 2. A = Z Q 2 2 ist invertierbar, aber nicht unimodular, denn A = ( ) liegt nicht in Z A = Z 3 3 Q 3 3 ist unimodular, denn A = liegt 2 3 in Z 3 3. ( ) 3. A = Q[X] X 2 2 Q(X) 2 2 ist invertierbar, aber nicht unimodular, denn ( ) A = liegt nicht in Q[X] /X 2 2. ( + 2X + X X + 2X 4. A = 2 ) 3 X X 2X 2 Q[X] 2 2 Q(X) 2 2 ist unimodular, denn ( A = 4 X + 2X X + 2X 2 ) 2 3 X 2 2X X 2 liegt in Q[X] 2 2. Trotz der Unterscheidung zwischen unimodular und invertierbar kann es zu Missverständnissen kommen. Zum Beispiel ist die Matrix A zwar unimodular als Element von Q[X] 2 2, aber nicht als Element von Z[X] Eine Matrix, die nicht invertierbar ist, ist erstrecht nicht unimodular. Satz 28. (Verallgemeinerung von Satz 3) Sei K ein Körper und R ein Unterring von K. Sei A R n n. Dann gilt: A ist genau dann unimodular, wenn det(a) ein multiplikatives Inverses in R hat. 5-2 Beweis. Wenn A unimodular ist, existiert ein B R n n mit AB = I n. Dann gilt det(ab) = det(a) det(b) = det(i n ) =. Also ist det(a) = det(b) R. det(a) hat ein multiplikatives Inverses in R. Damit ist insbesondere det(a) und A ist in K n n invertierbar. Sei B = A. Die j-te Spalte von B ist die Lösung x K n des inhomogenen linearen Gleichungssystems Ax = e j, wobei e j der j-te Einheitsvektor ist. Nach Satz 34 (Cramers Regel) hat die i-te Komponente von x die Form det(ã) det(a), wobei à die Matrix ist, die aus A entsteht, wenn man die i-te Spalte durch e j ersetzt. Wegen à Rn n gilt det(ã) R, und nach Annahme gilt det(a) R. Da i und j beliebig waren, folgt, dass alle Komponenten von B in R liegen. 248

249 Beispiel.. Eine Elementarmatrix diag(,...,, c,,..., ) ist genau dann unimodular, wenn c R in R ein multiplikatives Inverses hat. 2. Die Elementarmatrizen, die das Vertauschen zweier Zeilen oder das Addieren des c- fachen (mit c R) einer Zeile zu einer anderen ausdrücken, sind immer unimodular. In Abschnitt 9 haben wir gezeigt, wie man eine beliebige Matrix über einem Körper durch elementare Zeilenumformungen in eine Treppennormalform überführen kann. Wenn man nicht dividieren kann, sind die Bedingungen der Treppennormalform in Def. 23 im allgemeinen nicht zu erfüllen. Wir werden jetzt eine abgeschwächte Variante der Treppenormalform einführen, die auch für Hauptidealringe funktioniert. Der Einfachheit halber betrachten wir ab jetzt nur noch den Ring R = Z. Definition 83. Eine Matrix A = ((a i,j )) n,m i,j= Zn m heißt Hermite-Normalform (HNF), falls es j < j 2 < < j k gibt mit. a,j,..., a k,jk sind positiv. 2. a i, = = a i,ji = für alle i =,..., k, und a i,j = für alle i > k und alle j =,..., m. 3. Für alle i =,..., k gilt a,jk,..., a k,jk < a k,jk. Informal gesagt hat eine HNF die Gestalt einer Treppenform im Sinn von Def. 23, wobei auf den Treppenstufen statt beliebige positive Zahlen stehen dürfen und oberhalb jeder Treppenstufe nur nichtnegative Zahlen, die kleiner sind als die Zahl auf der zugehörigen Stufe. Beispiel. Die Matrix ist eine Hermite-Normalform. Dabei stehen die Symbole für beliebige Elemente von Z. Satz 29. Für jedes A Z n m existiert eine unimodulare Matrix U Z n n und genau eine Hermite-Normalform H Z n m mit UA = H. Statt eines formalen Beweises geben wir nur einen Algorithmus an, der die Hermite-Normalform zu einer beliebigen gegebenen Matrix berechnet. Wie im Abschnitt 9 ist der Algorithmus so notiert, dass er die Einträge der Eingabematrix A im Verlauf der Rechnung durch andere Einträge ersetzt. Die Notation A[i, j] bezeichnet jeweils den Eintrag, der zum aktuellen Zeitpunkt an der Stelle (i, j) von A steht. 249

250 Algorithmus 7. Eingabe: A = ((a i,j )) n,m i,j= Zn m Ausgabe: Die Hermite-Normalform H Z n m von A r = 2 für c =,..., m: 3 wenn A[r, c],..., A[n, c] nicht alle Null sind: 4 wähle ein p {r,..., n}, so dass A[p, c] = min({ A[r, c],..., A[n, c] } \ {}) ist. 5 wenn p r, dann vertausche die p-te und die r-te Zeile von A 6 wenn A[r, c] <, dann multipliziere die r-te Zeile von A mit ( ) 7 für i = r +,..., m: 8 bestimme ein q Z, für das A[i, c] qa[r, c] minimal ist. 9 addiere das ( q)-fache der r-ten Zeile zur i-ten Zeile von A. wiederhole die Schritte 4 9, bis A[r +, c] = = A[n, c] = gilt. für i =,..., r : 2 bestimme ein q Z, für das A[i, c] qa[r, c] < A[r, c] gilt. 3 addiere das ( q)-fache der r-ten Zeile zur i-ten Zeile von A. 4 r = r + 5 gib A als Ergebnis zurück. Der Algorithmus geht von links nach rechts durch die Matrix und bearbeitet jede Spalte so lange, bis sie die Bedingungen aus der Definition erfüllt. Dabei werden nur elementare Zeilenoperationen auf die Matrix angewendet, die unimodularen Matrizen entsprechen, und die die schon bearbeiteten Spalten links von der aktuellen Spalte nicht verändern. Damit ist klar, dass die Ausgabematrix H des Algorithmus eine Hermite-Normalform ist, und dass es eine unimodulare Matrix U gibt mit UA = H. Es ist weniger klar, dass der Algorithmus für jede Eingabematrix zum Ende kommt. Es wäre denkbar, dass eine Situation entsteht, in der die Schritte 4 9 unendlich oft wiederholt werden, ohne dass die Schleifenabbruchbedingung jemals erfüllt wird. Dass das nicht passieren kann, folgt daraus, dass nach jedem Durchgang durch diese Schritte die Zahlen A[i, c] für i = r +,..., n echt kleiner sind als der Treppenstufeneintrag A[r, c]. Dieser wird also bei jeder Wiederholung dieser Schritte durch ein kleineres Element von N ersetzt. Da jede streng monoton fallende Folge in N endlich ist, muss auch der Algorithmus nach endlich vielen Schritten fertig werden. Beispiel ( )

251 ( ) ( ) ( ) 3 + Satz 3. Sei A Z n m und sei H Z m (n+m) die Hermite-Normalform von (A I m ). Es seien B Z k n, U Z k m und N Z (m k) m so, dass 5-2 ( ) 5-6 B U H =, N wobei k so gewählt ist, dass B keine Nullzeilen hat. Dann gilt:. ( B ) ist die Hermite-Normalform von A, und UA = B Die Zeilen von B bilden eine Basis des Z-Untermoduls von Z n, der von den Spalten von A erzeugt wird. 3. Die Zeilen von N bilden eine Basis von ker Z A. Beweis.. Da H eine Hermite-Normalform ist, ist auch B eine Hermite-Normalform. Ist M Z m m eine unimodulare Matrix mit M(A I m ) = H, so gilt MA = ( B ) und MIm = 5-6 M = ( ( U N), also U ) N A = ( B ), also UA = B. 2. Aus Teil folgt, dass es sich um ein Erzeugendensystem handelt. Dass die von Null verschiedenen Zeilen einer Hermite-Normalform linear unabhängig sind, zeigt man wie in Satz Da H eine Hermite-Normalform ist, ist auch N eine Hermite-Normalform. N kann keine Nullzeilen enthalten, weil die Zeilen von I m linear unabhängig sind. Es folgt, dass die 5-6 Zeilen von N linear unabhängig sind. 25

252 Aus der Rechnung im Beweis zu Teil folgt NA =. Damit sind die Zeilen von N in ker Z A enthalten. Sei umgekehrt x ker Z A. Zu zeigen: x ist eine Z-Linearkombination der Zeilen von N. Sei M Z m m wie im Beweis zu Teil. Da M unimodular ist, ist auch M unimodular (wegen Satz 28 und Satz 3), und wir können x = M y für ein y Z m schreiben. Es gilt dann = Ax = AM y, also y(ma ) = y ( B ) =. Da die Zeilen von B linear unabhängig sind, muss y die Form y = (,...,,,..., ) haben. Daraus folgt, dass x = M y = (U N )y eine Linearkombination der Zeilen von N ist. Beispiel. ( ) Betrachte die Matrix A = Z Die Hermite-Normalform von ist Daraus folgt, dass die Spalten von A den ganzen Z 2 aufspannen, und dass 2 3 { 2, 2 3 } eine Basis des Z-Moduls K := ker Z A = {x Z 4 : Ax = } Z 4 ist. Mit dem Gauß-Algorithmus findet man A ( 3/4 /2 3/8 3/4 und daraus folgt, dass der Q-Vektorraum U := {x Q 4 : Ax = } Q die Basis 3/4 /2 { 3/8, 3/4 } hat. Durch Skalierung der beiden Basiselemente mit 8 bzw. 4 bekommt man die alternative Basis 6 2 B = { 3 8, 3 }. 4 Obwohl die Elemente dieser Basis in Z 4 liegen, handelt es sich nicht um eine Z-Modul- 2 Basis von M, denn z.b. der Vektor der beiden Vektoren in B schreiben. 2 ), K lässt sich nicht als Z-Linearkombination 252

253 Umgekehrt gilt aber, dass jede Z-Modulbasis von ker Z A auch eine Q-Vektorraumbasis von U ist. 2. Betrachte die Z-Moduln A = ( ) ( 2 3, ) 2 Z 2 und B = ( ) (, 3 2) Z 2. Gesucht ist 5-6 eine Basis von A B. Das Problem lässt sich genau wie bei Vektorräumen auf die Lösung eines linearen Gleichungssystems zurückführen: Eine Z-Modul-Basis für den Kern von ( 2 ) ist { 2, }. ) + 2 ( ) ( + 5 ) ( = 4 ) (, 5 Daraus folgt A B = ( ( 2 3 2), ). In der folgenden Abbildung ist das Gitter A rot und das Gitter B blau dargestellt. Die Gitterpunkte sind jeweils die Punkte, wo sich zwei gleichfarbige Geraden kreuzen. Das Gitter A B besteht aus den Punkten, wo sich sowohl zwei rote als auch zwei blaue Geraden kreuzen. Diese Punkte sind als ausgefüllte Kreise markiert. 4 Die Smith-Normalform Nach Satz 22 ist jeder Z-Untermodul von Z n frei und endlich erzeugt. Mit der Hermite-Normalform kann man aus einem gegebenen Erzeugendensystem eine Basis berechnen. Quotientenmoduln Z n /M 253

254 für Untermoduln M Z n sind im allgemeinen nicht frei. Nach Satz 27 gibt es aber für jeden solchen Modul eine Zerlegung in einen freien Modul und einen Torsionsmodul. Allerdings gibt der Satz keinen Hinweis darauf, wie man diese Zerlegung explizit berechnen kann. Manchmal lässt sich aus dem Beweis eines Satzes ein Berechnungsverfahren extrahieren. Man spricht dann von einem konstruktiven Beweis. Der Beweis von Satz 27 ist nicht konstruktiv. Wie findet man also für einen gegebenen Untermodul M Z n die Zerlegung von Z n /M? Die Frage lässt sich einfach beantworten, wenn M von Z-Vielfachen von Einheitsvektoren erzeugt wird. 5 Beispiel. Für M =, 2 Z 3 ist Z 3 /M = [ ], [ ], [ ] = [ ] + [ ] + [ ]. } {{ } } {{ } =Z 5 =Z 2 } {{ } Torsionsanteil } {{ } } =Z {{ } freier Anteil 5-9 Wenn M keine solche Basis hat, dann kann man noch die Freiheit ausnutzen, für Z n eine andere Basis als die Standardbasis zu wählen. Es würde nämlich genügen, zum gegebenen Modul M Z n eine Basis B von Z n zu finden, so dass M eine Basis B 2 hat, so dass die Koordinatendarstellungen der Elemente von B 2 bezüglich der Basis B ganzzahlige Vielfache von Einheitsvektoren sind. 5 2 Beispiel. M =, 2 Z 3 hat keine Basis bestehend aus Z-Vielfachen von Einheitsvektoren. Bezüglich der Basis (,, ) von Z 3 haben die Erzeuger von M die 5 Form, 2. Da ein Basiswechsel in Z 3 einem Isomorphismus Z 3 Z 3 entspricht, folgt Z 3 /M = Z 5 Z 2 Z. 3 7 Andere Möglichkeit: Bezüglich der Basis B = (, 2, ) von Z 3 haben die Vektoren 5 2, 2 die Koordinatendarstellungen b = 5, b 2 = 4, denn es gilt = =

255 Auch b + b 2 = und 4b + 5b 2 = bilden eine Basis von M, wobei die Koordianten der Vektoren auf den rechten Seiten wieder bezüglich B zu verstehen sind. Es gilt also auch Z 3 /M = Z Z Z. (Beachte Z = Z/Z = {}.) Der folgende Satz besagt, dass eine analoge Rechnung für jeden Modul M Z n möglich ist. Satz 3. (Smith-Normalform) Für alle A Z n m gibt es unimodulare Matrizen U Z n n und V Z m m, so dass UAV = s s 2 Z n m... mit Diagonaleinträgen s,..., s n N, für die gilt s s 2 s 3. Diese s, s 2,... sind eindeutig durch A bestimmt. Die Diagonalmatrix aus dem Satz wird als die Smith-Normalform von A bezeichnet. Sie verallgemeinert eine Beobachtung aus Abschnitt. Dort hatten wir gesehen, dass sich jede Matrix A K n m durch Anwendung elementarer Zeilen- und Spaltenoperationen auf eine Diagonalform bringen lässt, wobei auf der Diagonalen zunächst eine Reihe von Einsen und dann eine Reihe von Nullen steht. Auch die Smith-Normalform bekommt man, indem man systematisch Zeilen- und Spaltenoperationen auf die Matrix anwendet. Man eliminiert zuerst die Einträge, die nicht auf der Diagonalen stehen. Das geht so ähnlich wie bei der Berechnung der Hermite-Normalform. Anschließend muss man noch die 5-2 Teilbarkeitseigenschaft der Diagonalelemente herstellen. Dazu benutzt man die Z-Version von Satz 72, die besagt, dass es zu je zwei ganzen Zahlen s i, s j zwei ganze Zahlen a, b gibt, so dass g := gcd(s i, s j ) = as i + bs j gilt. Wenn s i, s j, zwei Diagonaleinträge mit s i s j sind, dann kann man wegen b + ( ) s i s j ( a si + g s j/g + ) ( ) + s j s i/g g s j s i s j /g ( ) g ( ) s i s j /g die Einträge s i und s j durch g und s i s j /g ersetzen. Die Operationen sind unimodular, weil s i /g und s j /g in Z liegen. Da in dieser Rechnung die positive ganze Zahl s i durch eine echt kleinere positive ganze Zahl g ersetzt wird (wegen s i s j ist s i = g nicht möglich), muss nach endlich vielen Wiederholungen eine Diagonale entstehen, in der jeder Diagonaleintrag den folgenden teilt. Algorithmus 8. Eingabe: A Z n m Ausgabe: s, s 2, N, so dass s s 2 Z n m die Smith-Normalform von A ist.... für k =,..., min(n, m): 2 wenn A[i, j] = für alle i, j k, dann weiter mit Schritt 4. 3 wähle eine Position (i, j) mit i, j k, für die A[i, j] minimal und nicht Null ist. 4 falls i k, vertausche die i-te Zeile und die k-te Zeile von A. 255

256 5 falls j k, vertausche die j-te Spalte und die k-te Spalte von A. 6 falls A[k, k] <, multipliziere die k-te Zeile (oder Spalte) mit ( ). 7 für i = k +,..., n: 8 bestimme ein q Z, für das A[i, k] qa[k, k] minimal ist. 9 addiere das ( q)-fache der k-ten Zeile zur i-ten Zeile von A. für j = k +,..., m: bestimme ein q Z, für das A[k, j] qa[k, k] minimal ist. 2 addiere das ( q)-fache der k-ten Spalte zur j-ten Spalte von A. 3 falls A[i, k] für ein i > k oder A[k, j] für ein j > k, weiter mit Schritt 3 4 solange es Paare (i, j) mit i < j und A[i, i] A[j, j] gibt: 5 wähle so ein Paar und berechne g = gcd(a[i, i], A[j, j]). 6 ersetze A[j, j] durch A[i, i]a[j, j]/g und dann A[i, i] durch g. Beispiel. 5-9,5-2. Es gilt Z 2 / ( 3 5), ( 4 6) = Z Z 2 = Z2, weil ( ) ( + ) ( ) 3 2 ( ) ( + ) 2 ( ) 2. Aus der Smith-Normalform lässt sich ablesen, dass Z n /M zu einem Produkt Z k Z s Z sm isomorph ist: k ist die Zahl der Nullen auf der Diagonalen und s,..., s m sind die Diagonaleinträge, die 2 sind. Etwaige -Einträge kann man weglassen, weil Z = Z/Z = {} ist und für jeden Modul U gilt U {} = U. 2. Beim Modul Z k Z s Z sm ist Z k {} m der freie Untermodul F aus Satz 27 und {} Z s Z sm der Torsionsuntermodul. Diese Moduln entsprechen gewissen Untermoduln von Z n /M. Wenn wir diese identifizieren wollen, brauchen wir neben der Smith-Normalform S auch die unimodularen Matrizen U und V aus Satz 3. Diese Matrizen codieren den Isomorphismus zwischen Z n /M und Z k Z s Z sm. Geeignete Matrizen U ( und V findet ) man, indem man den Algorithmus statt auf A auf A In die erweiterte Matrix anwendet, wobei man Zeilenoperationen nur auf die I m ersten n Zeilen und Spaltenoperationen nur auf die ersten m Spalten anwendet. Zum 256

257 Beispiel so: ( ) Im zweiten Schritt haben wir zugleich Zeilen- und Spaltenoperationen verwendet. Welche dieser beiden Operationen man zuerst durchführt, ist egal, weil die Zeilenoperation 6-2 eine Multiplikation von Links und die Spaltenoperation eine Multiplikation von rechts ist und Matrixmultiplikation assoziativ ist. Trotzdem sollte man mit solchen Abkürzungen vorsichtig sein, weil man dabei leicht vermeidbare Fehler macht. Für 2 M = 2,, 4 Z ergibt sich aus der Smith-Normalform im Block oben links Z 3 /M = Z Z 3. Mit den Basiswechselmatrizen in den beiden anderen Blöcken kann man die Untermoduln von Z 3 /M identifizieren, die zu Z bzw. Z 3 isomorph sind. Zunächst gilt 2 2 }{{} = = }{{} = Die zweite Multiplikation entspricht einem Basiswechsel von M, d.h. es gilt M = 2,

258 Die erste Multiplikation besagt, dass und 3 die Koordinatendarstellungen von 2 und 3 bezüglich der Basis ( 2,, ) sind Für den Quotientenmodul Z 3 /, 3 ist klar, dass der Untermodul [ ] isomorph zu Z und der Untermodul [ ] isomorph zu Z 3 ist. Übersetzt man diese Erkenntnis zurück in die ursprüngliche Basis, so findet man, dass die Zerlegung von Z 3 /M in seinen freien und seinen Torsionsanteil Z 3 /M = [ ] [ ] }{{}}{{} =Z =(Z 3 /M) tor =Z3 lautet. In der Tat gilt 3 [ ] = [ 3 ] = [], da 3 M. Dagegen gibt 3 3 es kein a Z \ {} mit a [ ] = []. Satz 32. (Elementarteilersatz) Sei M ein endlich erzeugter Z-Modul. Dann gibt es ein k N und ganze Zahlen s,..., s m 2 mit s s m, so dass M = Z k Z s Z sm. Die Zahlen k, s,..., s m sind eindeutig durch M bestimmt. Beweis. Sei E = {e,..., e n } M ein Erzeugendensystem von M. Für den Homomorphismus h: Z n M, h(a,..., a n ) := a e + + a n e n gilt dann M = Z n / ker h. Es genügt also, die Aussage für Z-Moduln der Form Z n /U mit Untermoduln U Z n zu zeigen. Für solche Z-Moduln folgt sie aber unmittelbar aus Satz Kurze Vektoren in Gittern Wenn man wissen möchte, wie engmaschig ein Gitter L Z n ist, darf man sich nicht an der Länge der Basisvektoren (z.b. bezüglich der Standardnorm) orientieren. Zwar ist klar, dass für jeden Basisvektor b die Vielfachen αb für α Z \ {} stets länger sind als b, aber Linearkombinationen mehrerer Basisvektoren können durchaus kürzere Vektoren ergeben. 258

259 Beispiel. L = ( 5 4), ( 8 7) Z 2 enthält den Vektor ( ) ( ) 5 = ( 3) 2 4 ( ) und es gilt ( ) = 5 < ( ) ( ) = min{, } Definition 84. Seien x,..., x k R n linear unabhängig über R. Dann heißt Π(x,..., x k ) := { α x + + α k x k : α,..., α k [, ) } R n der von x,..., x k aufgespannte Spat (engl. parallelepiped). Dabei ist [, ) = { x R : x < } das rechts halb-offene Einheitsintervall. Ist P = Π(x,..., x k ) der von x,..., x k aufgespannte Spat, so heißt { falls k < n V (P ) := det(x,..., x n ) falls k = n das (n-dimensionale) Volumen von P. Satz 33. Ist L Z n ein Gitter und sind {b,..., b k } und {b,..., b k } zwei Basen von L, so gilt V (Π(b,..., b k )) = V (Π(b,..., b k )). 259

260 Beweis. Im Fall k < n gilt V (Π(b,..., b k )) = V (Π(b,..., b k )) =. Betrachte den Fall n = k. Jedes b i ist eine Z-Linearkombination von b,..., b k und umgekehrt. Es gibt also Matrizen T, T Z n n mit (b,..., b k ) = (b,..., b k )T und (b,..., b k ) = (b,..., b k )T. Aus n = k und der linearen Unabhängigkeit von b,..., b k und von b,..., b k folgt T T = T T = I n. Es handelt sich bei T und T also um unimodulare Matrizen. Deshalb gilt det(t ) = det(t ) =, und deshalb V (Π(b,..., b n )) = det(b,..., b n ) = det((b,..., b n)t ) = det(b,..., b n) det(t ) = det(b,..., b n) = V (Π(b,..., b n)), wie behauptet. Beispiel. Eine alternative Basis für das Gitter L = ( ( 5 4), 8 ) 7 Z 2 ist { ( ) ( 2, ) }. Die Flächeninhalte der zugehörigen Parallelogramme sind = = 3 2 = 2 ( ) = 3. Die Umkehrung des Satzes ist im allgemeinen falsch. Zum Beispiel ist auch ( 3 ), ( ) ein Gitter, dessen Basis einen Spat mit Volumen 3 aufspannt, aber es ist offensichtlich ein anderes Gitter als L, denn ( ) L. Das Volumen des Spats, der von den Basisvektoren eines Gitters aufgespannt wird, hängt wegen des vorherigen Satzes nicht von der Wahl der Basis ab, sondern nur vom Gitter selbst. Die geometrische Anschauung legt die Vermutung nahe, dass eine Basis bestehend aus kurzen Vektoren relativ nah an einer Orthogonalbasis sein muss. Eine solche fast orthogonale Basis gibt einen adäquaten Eindruck davon, wie engmaschig das Gitter ist. Wir wissen aus Satz, wie man aus einer beliebigen Basis eines Unterraums von R n eine ONB berechnet. Das Volumen des Spats einer ONB ist immer, aber man kann den Algorithmus aus 26

261 Satz leicht so abändern, dass er eine gegebene geordnete Basis (b,..., b k ) eines Unterraums von R n in eine orthogonale Basis (v,..., v k ) mit V (Π(b,..., b k )) = V (Π(v,..., v k )) überführt. Dazu setzt man v = b und i v i = b i j= b i v j v j v j v j für j = 2,..., k. Wie im Beweis von Satz rechnet man nach, dass dann v i v j = für i j gilt. Nach Konstruktion gilt dann (im Fall n = k). (v,..., v n ) = (b,..., b n )...,... und da die Matrix rechts die Determinante hat, folgt V (Π(v,..., v n )) = V (Π(b,..., b n )). Satz 34. Sei ein Skalarprodukt auf R n und die zugehörige Norm. Sei L Z n ein Gitter und {b,..., b k } eine Basis von L. Es sei v = b und für i = 2,..., k. Dann gilt i b i v j v i = b i v j v j v j j= x L \ {} : x min{ v,..., v k }. Beweis. Sei x L \ {}, etwa x = α b + + α k b k für gewisse α,..., α k Z. Wegen x muss mindestens ein α i von Null verschieden sein. Sei l {,..., k} maximal mit α l. Dann gilt also x = α b + + α l b l. Wegen b i = v i + i b i v j j= v j v j v j (i =,..., l) gilt 5-24 x = α b + α 2 b α l b l + α l b l ( = α v + α 2 v 2 + b v ) ( v v v l 2 b i v j ) + + α l v l + v j= j v j v l b i v j ) j +α l (v l + v j= j v j v j }{{}}{{} v,...,v l v,...,v l = ν v + + ν l v l + α l v l für gewisse ν,..., ν l Q. Wegen der Orthogonalität der v i folgt x 2 = x x = ν v + + ν l v l + α l v l ν v + + ν l v l + α l v l = ν v 2 v + + νl 2 v l v l +αl 2 }{{} v l v l αl 2 v l 2 min{ v 2,..., v k 2 }, 26

262 wobei im letzten Schritt ausgenutzt wurde, dass für α l Z \ {} jedenfalls α 2 l gelten muss. Der Satz bestätigt die geometrische Intuition, dass die Elemente von Orthogonalbasen relativ kurz sind. Allerdings handelt es sich bei v,..., v k im allgemeinen nicht um Elemente von L, weil die Koeffizienten b i v j v in der Definition der v j v j i im allgemeinen nicht in Z sondern nur in Q liegen. Um kurze Vektoren zu finden, die auch selbst in L liegen, betrachtet man Gitter-Basen, bei denen sich nur wenig ändert, wenn man sie als Untervektorraumbasen auffasst und aus ihnen eine Orthogonalbasis berechnet. Dass sich wenig ändert, wird durch die beiden Bedingungen ausgedrückt, dass die Koeffizienten bi vj v bei j v j der Berechnung der Orthogonalbasis klein sein sollen, und dass jedes v i nicht viel länger sein soll als v i. Das führt auf die folgende Definition. Definition 85. Sei L Z n ein Gitter und (b,..., b k ) eine geordnete Basis von L. Seien v,..., v k Q k wie in Satz 34. Die Basis (b,..., b k ) heißt reduziert (engl. reduced), falls gilt:. Für alle i, j mit j < i k gilt b i v j v j v j 2 2. Für alle i =,..., k gilt v i 2 2 v i Beispiel. Die Basis ( ( ( 5 4), 8 7) ) ist nicht reduziert, denn für die beiden Vektoren ( ) ( ) 5 8 v =, v 2 = ( ( 8 7) 5 ( ) ( ) 4) 5 2/4 4 7 ( ( 5 4) 5 ) = 4 4 5/4 des zugehörigen Orthogonalsystems gilt v 2 = 4 > 8 = 2 v Die zweite Bedingung ist also verletzt. Die erste ist auch schon verletzt, denn (8 7) ( 5 4) ( 5 4) ( = > 2. 4) Die Basis ( ( ) (, ) 2 ), die dasselbe Gitter erzeugt, ist reduziert, denn für ( ) ( ) v =, v 2 = ( ) ( 2 ) ( ) 2 ( ) ( ) = gilt v 2 = 2 9 = 2 v 2 2, und ( 2) ( ) ( ) ( ) = 2 2. ( ) 3/2 3/2 Satz 35. Sei L Z n ein Gitter und (b,..., b k ) eine reduzierte Basis von L. Weiter seien v,..., v k Q k wie in Satz 34. Dann gilt b i 2 2 i v i 2 für i =,..., k. Beweis. Schreibe µ i,j = b i v j v j v j für j < i k. Dann gilt b i = v i + j<i µ i,jv j für i =,..., k. Wegen der Orthogonalität der v j untereinander gilt b i 2 = b i b i = v i + j<i = v i v i + µ 2 i,j }{{} j<i 4 ( + 2 i j) 4 j<i }{{} = i 2 i 262 µ i,j v j v i + j<i µ i,j v j v j v j }{{} 2 i j v i 2 v i 2 2 i v i 2.

263 Im letzten Schritt wurde die Summenformel i gilt (geometrische Reihe). j= qj = qi q q verwendet, die für alle q R\{} Satz 36. Sei L Z n ein Gitter und (b,..., b k ) eine reduzierte Basis von L. Weiter seien x,..., x m L linear unabhängig. Dann gilt max{ b 2,..., b m 2 } 2 k max{ x 2,..., x m 2 }. Insbesondere gilt b 2 2 k x 2 für alle x L \ {}. Beweis. Wir beginnen ähnlich wie im Beweis von Satz 34. Wegen x,..., x m L gibt es für jedes i =,..., m eine Wahl von α i,l Z (l =,..., k), so dass x i = k l= α i,lb l. Da die x,..., x m nach Annahme linear unabhängig sind, kann es keine Indices l,..., l m {,..., k} geben, so dass x,..., x m im von b l,..., b lm erzeugten Q-Vektorraum liegen. Es muss also mindestens m verschiedene Indices l,..., l m {,..., k} geben, so dass für jedes dieser l ein passendes i {,..., k} existiert, für das α i,l ist. Mit anderen Worten: jedes 5-3 der b l,..., b lm muss in der Linearkombination von wenigstens einem der x i mit einem von Null verschiedenen Koeffizienten vorkommen. Wir können annehmen, dass l < l 2 < < l m k gilt. Dann ist insbesondere q l q für alle q. Wähle ein beliebiges q {,..., m} und ein passendes p {,..., m} mit α p,lq. Setze µ i,i = für i =,..., k und µ i,j = b i v j v j v j für j < i k. Dann gilt b i = j i µ i,jv j für i =,..., m und 5-24 x p 2 = = k α p,i b i 2 = i= k α p,i µ i,j v j i= j i k α p,i µ i,j v j 2 i= j i k α p,i µ i,j v j i= j i k = αp,iµ 2 2 i,j v j v j αp,l 2 }{{} q µ 2 l q,l q v lq 2 i= j i }{{}}{{} = v lq 2 2 q lq v q 2 2 q lq (q ) b q 2 2 k b q 2. l q q und Def. 85 Satz 35 l q k Damit ist gezeigt, dass es für jedes q {,..., m} ein p {,..., m} gibt mit x p 2 2 k b q 2. Daraus folgt max{ x 2,..., x m 2 } 2 k max{ b 2,..., b m 2 }, und daraus die Behauptung. Der Satz sagt, dass die Vektoren in einer reduzierten Basis nur um einen bestimmten Faktor größer sein können als die kürzesten von Null verschiedenen Vektoren des Gitters. Zwar kann es sein, dass es im Gitter noch kürzere Elemente gibt, aber diese zu finden ist nach derzeitigem Kenntnisstand nur mit unvertretbar hohem Rechenaufwand möglich. Zur Berechnung einer reduzierten Basis gibt es dagegen einen effizienten Algorithmus, den sogenannten LLL-Algorithmus (benannt nach seinen Entdeckern Lenstra, Lenstra und Lovász). In gewisser Weise erkauft man sich die Effizienz des Algorithmus da- 6-6 durch, dass man nicht die kürzesten Vektoren von L\{} verlangt, sondern sich mit Vektoren begnügt, für die zumindest garantiert ist, dass sie nicht wesentlich länger sind als die kürzesten. 263

264 Wir werden die Einzelheiten des LLL-Algorithmus zur Berechnung einer reduzierten Basis hier nicht besprechen, sondern nur darauf verweisen, dass der Algorithmus in den meisten Computeralgebrasystemen implementiert ist, z.b. in Maple (im Befehl IntegerRelations[LLL]), in Mathematica (im Befehl LatticeReduce), und in Sage (in der Methode LLL der Klasse für Matrizen über Z). Obwohl der LLL-Algorithmus nicht unbedingt die kürzesten Vektoren eines Gitters findet, ist er ein extrem nützliches Werkzeug. Man wendet ihn an, indem man ein Gitter konstruiert, in dem die Vektoren, die man kennt, sehr lang sind, und die, die man finden will, sehr kurz. Beispiel Sei A Z n m. Wir suchen eine Basis von ker Z A. Da Z ein Integritätsbereich ist, gilt ker Z A = ker Z wa für jedes w Z \ {}. Wenn wir w hinreichend groß wählen, werden alle Z-Linearkombinationen von Spalten von A lang sein im Vergleich zu den Vektoren in einer reduzierten Basis von ker Z A. Sei L Z n+m das Gitter, das von den Zeilen von (wa I m ) Z m (m+n) erzeugt wird. Dann gilt (,...,, x,..., x m ) L (x,..., x m ) ker Z (A). Wir können also hoffen, dass sich solche Vektoren in einer reduzierten Basis von L befinden Betrachte zum Beispiel A = Eine reduzierte Basis des Gitters, das von den Zeilen von (A I 5 ) erzeugt wird, lautet Norm {(,, 2,,,, 2, ), (2,,,,,,, ), 3. (,, 3,, 2,, 2, ), (2, 3,,, 2,,, ), (6, 5,,, 3, 2,, )} Diese Basis enthält keine Vektoren der Form (,,, x, x 2, x 3, x 4, x 5 ), weil w = zu klein gewählt war. (Je nach verwendeter Software erhält man unter Umständen ein anderes Ergebnis. Die reduzierte Basis eines Gitters ist nicht eindeutig bestimmt.) Für (A I 5 ) bekommt man Norm {(,,, 2, 3,, 4, ), (,,, 7, 9, 3, 3, ), (,,, 3, 5, 2, 5, ), (,,, 2, 4, 2, 3, ), (,,, 3, 2,, 3, )} Das liefert die Lösung ( 7, 9, 3, 3, ) ker Z A. Es müsste aber noch mindestens einen weiteren linear unabhängigen Vektor in ker Z A geben. Offenbar war w = auch 264

265 zu klein. Man könnte als nächstes w = testen und würde tatsächlich zwei linear unabhängige Elemente von ker Z A finden. Es spricht aber auch nichts dagegen, ein noch viel größeres w zu wählen, z.b. w =. Für diese Wahl erhält man die reduzierte Basis Norm {(,,, 7, 9, 3, 3, ), (,,, 4, 46, 35, 32, 36), (,,,, 6, 2,, 2), (,,, 5, 2,, 8, 3), (,,, 3, 2,, 3, )}. Die Vektoren, die den Elementen von ker Z A entsprechen, sind jetzt deutlich kürzer als die übrigen Vektoren. In der Tat gilt ker Z A = 3 3, Den gleichen Trick kann man verwenden, um Beziehungen zwischen reellen Zahlen aufzuspüren, die man nur bis zu einer gewissen (endlichen) Genauigkeit kennt. Seien x,..., x n R und seien ξ,..., ξ n Q so, dass x i ξ i < ε für ein gewisses (kleines) ε > und i =,..., n gilt. Wir wollen wissen, ob x,..., x n linear abhängig über Z sind, d.h. ob es einen Vektor (e,..., e n ) Z n \ {} gibt mit e x + + e n x n =. Betrachte dazu das Gitter wξ wξ n L =,...,. Z n+,. für ein (großes) w Z. Dabei steht u := max{z Z : z u} für die kleinste ganze Zahl z Z, die höchstens so groß ist wie u R. Sind e,..., e n Z wie vorher, so gilt e wξ + + e n wξ n = e w(x ξ ) + + e n w(x ξ n ) ( e + + e n )wε. Deshalb werden, wenn ε hinreichend klein und w hinreichend groß ist, die Vektoren (e w ξ + +e n w ξ n, e,..., e n ) in L vergleichsweise kurz sein, und man kann hoffen, dass LLL sie findet. 265

266 5-23 Eine typische Anwendung ist runden rückwärts. Es ist meist einfach, von einer exakten Darstellung einer Zahl, wie z.b. x = 3, zu einer gerundeten wie z.b. ξ =.3333 zu kommen. Aber wie kommt man wieder zurück? Wenn man weiß (oder vermutet), dass.3333 ein Näherungswert für eine rationale Zahl p q ist, dann kann man Kandidaten für p und q finden, indem man LLL z.b. auf das Gitter , =, anwendet. Ein möglicher Output ist (,, 3), (3, 3, ). Das bedeutet, dass + ( 3).3333, also ist. Welche rationale Zahl ist ? Eine reduzierte Basis für , ist ( 3, 7, 3), (3226, 35, 2398). Es gilt also Die Zahl x ξ = ist eine (irrationale) Lösung einer quadratischen Gleichung. Welcher? Eine quadratische Gleichung ist eine lineare Abhängigkeit zwischen, x, und x 2. Wir können also Kandidaten finden, indem wir LLL z.b. auf das Gitter ,, anwenden. Eine reduzierte Basis dieses Gitters ist Norm {(2, 3, 8, 2), 9. (2425, 643, 44, 357), (622, 24545, 2647, 62)} Das zeigt, dass x nah bei einer Nullstelle des Polynoms 3 + 8X 2X 2 liegt. Es beweist nicht, dass die reelle Zahl x, von der wir nur die ersten Nachkommastellen kennen, tatsächlich eine Nullstelle dieses Polynoms ist. Die Rechnung erlaubt es nur, zu runden. 3. Rechnungen in einem endlichen Körper Z p mit p prim kann man auch als eine Art Approximation auffassen. Zwar sagt [ 6 ] 9 = [794] 9 nicht, dass 6 und 794 als reelle Zahlen nah beieinander liegen, aber diese Zahlen sind sich in gewisser Weise arithmetisch ähnlich. Um von einer Approximation 794 modulo 9 zurück zur rationalen 6 Zahl zu kommen, wendet man LLL auf das Gitter ( ) ( ) 794 9, an. Für alle Vektoren (p, q) in diesem Gitter mit q gilt [ p q ] 9 = [794] 9. Plausible Kandidaten entsprechen kurzen Vektoren. Tatsächlich ist (6, ), ( 79, 37) im vorliegenden Beispiel eine reduzierte Basis. 266

267 Teil VIII Algorithmische Lineare Algebra 267

268 43 Komplexität Ein Algorithmus (engl. algorithm) ist ein systematisches Verfahren zur Lösung eines Problems. In den vorangegangenen Abschnitten haben wir schon mehrere Beispiele für solche Verfahren gesehen. All diese Algorithmen haben gemeinsam, dass die Probleme, die sie lösen, prinzipiell unendlich viele verschiedene mögliche Eingaben haben (z.b. Matrizen A K n m für beliebige n, m N). Wenn man den möglichen Eingaben eine Größe zuordnet, wird man akzeptieren (müssen), dass der Algorithmus für größere Eingaben mehr Rechenzeit braucht als für weniger große. Zugleich will man nicht mehr Rechenzeit als nötig investieren. Um die Effizienz eines Algorithmus zu beurteilen, betrachtet man Funktionen T, die die Rechenzeit des Algorithmus in Abhängigkeit von der Problemgröße messen. Dabei ist zu berücksichtigen, dass die Rechenzeit für verschiedene Eingaben der gleichen Größe nicht unbedingt gleich sein muss. Man unterschiedet zwischen der durchschnittlichen Rechenzeit (average case) und der maximal möglichen Rechenzeit (worst case) für eine Eingabegröße. Darüber hinaus gibt es verschiedene Optionen, wie man die Laufzeit eines Algorithmus messen kann. Eine naheliegende Möglichkeit besteht darin, den Algorithmus zu programmieren und die Laufzeit für konkrete Eingaben experimentell zu bestimmen. Eine Messung der Laufzeit, z.b. in Sekunden, erfasst aber nicht nur die allgemeinen Eigenschaften des Algorithmus, sondern hängt immer auch ab von spezielle Eigenschaften des verwendeten Computers, von der verwendeten Programmiersprache, von den Details der Programmierung, und von der Wahl der Testbeispiele. Im Übrigen wüsste man gerne vorher, wie lange eine (große) Rechnung dauert. Bei einer experimentellen Bestimmung weiß man es erst hinterher. Um die Analyse der Laufzeit eines Algorithmus von den Eigenschaften einer konkreten Implementierung zu trennen, misst man die Laufzeit deshalb nicht in echter Zeit (z.b. in Sekunden), sondern zählt stattdessen, wie viele Grundoperationen für die Rechnung durchgeführt werden. Für Algorithmen in der linearen Algebra bietet es sich an, die Verknüpfungen +,,, / aus K als Grundoperationen zu betrachten. Man sagt, ein Algorithmus hat die arithmetische Komplexität T (n), wenn er für jede Eingabe der Größe n höchstens T (n) Operationen in K durchführt. Nach Bedarf kann die Größe der Eingabe auch durch mehr als einen Parameter beschrieben werden, z.b. T (n, m) für Algorithmen, die als Eingabe eine Matrix A K n m nehmen. Beispiel.. Betrachte den folgenden Algorithmus zur Polynommultiplikation. Algorithmus 9. Ausgabe: pq Eingabe: p, q K[X] mit deg(p) = n, deg(q) = m schreibe p = p + p X + + p n X n, q = q + q X + + q m X m 2 setze r = r = = r n+m = 3 für i =,..., n: 4 für j =,..., m: 5 r i+j = r i+j + p i q j 6 gib r + r X + + r n+m X n+m als Ergebnis zurück. In den Schritten, 2, 6 finden keine arithmetischen Operationen statt. Schritt 5 besteht aus zwei Operationen in K, einer Addition und einer Multiplikation. Schritt 4 bewirkt, dass Schritt 5 insgesamt m+ mal ausgeführt wird, und Schritt 3 bewirkt, dass Schritt 4 insgesamt n + mal ausgeführt wird, so dass Schritt 5 insgesamt (n + )(m + ) mal ausgeführt wird. Die Komplexität des Algorithmus ist also T (n) = 2(n + )(m + ). 2. Betrachte den folgenden Algorithmus zur Polynomendivision. 268

269 Algorithmus. Eingabe: p, q K[X] mit deg(p) = n, deg(q) = m n Ausgabe: quo(p, q) und rem(p, q) setze u =, v = p 2 solange deg(v) deg(q): 3 setze t = lc(v) lc(q) Xdeg(v) deg(q) 4 setze u = u + t und v = v t q 5 gib u und v als Ergebnis zurück. Der Grad von v ist zu Beginn n und wird in jedem Schleifendurchlauf um mindestens verringert, bis er unter m fällt. Die Schleife kann also höchstens (n m + ) mal durchlaufen werden. Die Berechnung von t kostet eine Operation in K. Da t ein Polynom mit nur einem Term ist, kostet die Addition u = u + t höchstens eine Addition, die Berechnung von t q höchstens (m+) Operationen, und die Subtraktion v t q höchstens m + Operationen, weil t q höchstes m + Terme hat. Die Gesamtzahl T (n, m) der Körperoperationen ist deshalb beschränkt durch (n m+)(++(m+)+(m+)) = 2(n m + )(m + 2). 3. Betrachte den folgenden Algorithmus zur Multiplikation zweier n n-matrizen. Algorithmus. Ausgabe: AB Eingabe: A, B K n n schreibe A = ((a i,j )) n i,j=, B = ((b i,j)) n i,j=. 2 setze c i,j = für i, j =,..., n. 3 für i =,..., n: 4 für j =,..., n: 5 für k =,..., n: 6 c i,j = c i,j + a i,k b k,j 7 gib ((c i,j )) n i,j= als Ergebnis zurück. Die arithmetische Komplexität dieses Algorithmus ist T (n) = 2n 3. Die Komplexität eines Algorithmus sagt nichts darüber aus, wie kompliziert ein Algorithmus ist, sondern nur darüber, wie lange er braucht. Tatsächlich ist es oft so, dass die Algorithmen mit der geringsten Komplexität zugleich die kompliziertesten sind. Die Bezeichnungsweise kommt vom Begriff der Komplexität eines Problems, die definiert ist als die Komplexität des effizientesten Algorithmus, der dieses Problem löst. Wenn man z.b. von der Komplexität der Polynommultiplikation spricht, dann meint man nicht die Anzahl der Operationen, die ein bestimmter Algorithmus für die Durchführung der Multiplikation braucht, sondern man meint die kleinstmögliche Anzahl von Operationen, die prinzipiell nötig ist, um die Polynommultiplikation durchzuführen. Die Komplexität eines Problems sagt also etwas über die Kompliziertheit des Problems aus. Man weiss nur für sehr wenige Probleme die genaue Komplexität. Die Komplexität jedes Algorithmus ist aber immer eine obere Schranke für die Komplexität des Problems, das er löst. Bei der Komplexität von Algorithmen interessiert man sich vor allem für das Verhalten bei großen Problemgrößen, weil es wichtiger scheint, z.b. eine -jährige Rechnung auf eine -jährige Rechnung 269

270 zu reduzieren als eine Rechnung von Millisekunden auf eine Millisekunde zu beschleunigen. Bei großen Problemgrößen ist die Anzahl der Operationen so hoch, dass es auf einige Operationen mehr oder weniger nicht ankommt. Es ist deshalb meistens nicht nötig, die Komplexität eines Algorithmus exakt zu bestimmen, sondern es genügt zu wissen, wie sich die Komplexität asymptotisch verhält, wenn man die Problemgröße gegen unendlich gehen lässt. Um asymptotisches Verhalten auszudrücken, kann man folgende Notation verwenden. 6-6 Definition 86. Seien f, g : N R zwei Funktionen. Man schreibt f(n) = O(g(n)), falls gilt c > n N n n : f(n) c g(n) Beispiel.. Es gilt 4n 2 + 3n + 5 = O(n 2 ) und 4n 2 + 3n + 5 = O(n 3 ), aber nicht n 3 = O(n 2 ). 2. Die Multiplikation zweier Polynome vom Grad n kostet O(n 2 ) Operationen in K. 3. Die Polynomendivision zweier Polynome mit Graden n bzw. m kostet O(nm) Operationen in K. 4. Die Multiplikation zweier n n-matrizen kostet O(n 3 ) Operationen in K. Satz 37. Sei A K n m eine Matrix mit Rang(A) = r. Dann braucht die Berechnung einer Treppenform von A nicht mehr als 6 r( 3(2m )(2n r) + 4r 2 6nr ) = O(max{n, m} 3 ) Operationen in K. Weitere (r )(r 2)(m r) Operationen in K genügen, um aus der Treppenform eine Treppennormalform zu berechnen. Beweis. Wir orientieren uns an Algorithmus 4. Dieser Algorithmus geht von links nach rechts durch die Spalten von A. Wenn in der ersten Spalte nur Nullen stehen, sind für diese Spalte keine Körperoperationen nötig und der Algorithmus fährt mit der Behandlung der n (m )-Matrix vom Rang r fort, die aus A durch Streichen der ersten Spalte entsteht. Wenn in der ersten Spalte wenigstens ein von Null verschiedenes Element steht, wird dieses gegebenenfalls durch Vertauschen zweier Zeilen an die Stelle (, ) gebracht. Das kostet keine Körperoperationen. Danach wird a,j für j = 2,..., m durch a, dividiert ((m ) Operationen) und anschließend a, auf gesetzt ( Operationen). Dann wird für jedes i = 2,..., n das ( a i, )-fache der ersten Zeile zur iten Zeile addiert. Der neue Eintrag für die Position (i, ) ist nach Konstruktion und muss nicht berechnet werden. Für jeden anderen Eintrag (i, j) mit j = 2,..., m berechnet sich der neue Eintrag durch a neu i,j = a i,j a i, a,j. Die Berechnung von a neu i,j braucht 2 Operationen (eine Multiplikation und eine Subtraktion). Das sind 2(m ) Operationen für jedes i = 2,..., n und (m ) + (n )2(m ) = (m )(2n ) Operationen insgesamt (incl. der Operationen für die Normierung der ersten Zeile). Danach bleibt eine Treppenform für eine (n ) (m )-Matrix vom Rank r zu berechnen. Ist T (n, m, r) die Anzahl der nötigen Operationen, so gilt also T (n, m, r) max ( T (n, m, r), T (n, m, r ) + (m )(2n ) ), 27

271 für alle n, m, r. Weiter gilt T (n, m, ) = für alle n, m, denn die einzige Matrix, deren Rang Null ist, ist die Null-Matrix, und diese ist ohne weitere Rechnung bereits eine Treppenform. Betrachte Dann gilt: f(n, m, r) := 6 r( 3(2m )(2n r) + 4r 2 6nr ).. f(n, m, ) = für alle n, m N 2. f(n, m, r) für alle n, m, r N mit r min(n, m) 3. f(n, m, r ) + (m )(2n ) = f(n, m, r) für alle n, m, r N 4. f(n, m, r) = f(n, m, r) (2n r)r f(n, m, r) für alle n, m, r N mit r n. Wir zeigen T (n, m, r) f(n, m, r) durch Induktion nach m. Induktionsanfang: Wenn m = ist, muss auch r = sein, und es gilt T (n, m, ) = f(n, m, ), wie behauptet. Induktionsschluss m m: Nach Induktionsannahme gilt T (n, m, r) f(n, m, r) für alle n, r N mit r m. Daraus folgt zusammen mit den oben gemachten Bemerkungen T (n, m, r) max ( T (n, m, r), T (n, m, r ) + (m )(2n ) ) max ( ) f(n, m, r), f(n, m, r ) + (m )(2n ) = f(n, m, r). }{{}}{{} f(n,m,r) =f(n,m,r) Satz 38. Für jedes A K n n kann man Rang(A), det(a) sowie Basen von ker A, im A, coker A, coim A mit O(n 3 ) Operationen in K ausrechnen. Wenn A invertierbar ist, genügen O(n 3 ) Operationen, um A zu berechnen. Beweis. Alle genannten Daten lassen sich aus einer Treppennormalform von A oder (A I n ) K n 2n ablesen. Die Behauptungen folgen deshalb sofort aus Satz 37. Für det(a) muss man sich die Einträge merken, durch die die Zeilen geteilt werden. Wenn Rang A = n ist, ist deren Produkt die Determinante. Das Produkt auszurechnen kostet höchstes n Operationen und fällt deshalb nicht ins Gewicht. Wenn Rang A < n ist, ist det(a) = ohne weitere Rechnung. 44 Dünn besetzte Matrizen Man sagt, eine Matrix ist dünn besetzt (engl. sparse matrix), wenn viele ihrer Einträge Null sind. Wenn es kaum Nulleinträge gibt, spricht man von einer dicht besetzten Matrix (engl. dense matrix). Es gibt keine scharfe Abgrenzung sondern einen fließenden Übergang zwischen diesen Begriffen. Unter Umständen kann dieselbe Matrix abhängig vom Kontext mal als dünn besetzt und mal als dicht besetzt aufgefasst werden. Beim Rechnen mit dünn besetzten Matrizen kann man ausnutzen, dass x = und + x = x für alle x K gilt, und dadurch Operationen einsparen. Wenn man im Vorhinein weiß, wo die Nicht-Null- Einträge der Matrix stehen, ist das meist nicht allzu schwer. 27

272 5-3 Beispiel. Sind A, B K n n Diagonalmatrizen, so lässt sich AB mit O(n) Operationen berechnen. Eine dicht besetzte n m-matrix wird im Rechner durch eine Liste von Listen von Einträgen dargestellt. Dieses Datenformat entspricht der gewöhnlichen Schreibweise für Matrizen auf Papier. Es hat einen Speicherbedarf von O(nm). Für dünn besetzte Matrizen sollte man ein anderes Datenformat verwenden, damit nicht ein großer Teil des Speichers mit lauter Nullen belegt wird. Für eine Diagonalmatrix genügt es zum Beispiel, die Einträge auf der Diagonale abzuspeichern (sowie die Tatsache, dass es sich um eine Diagonalmatrix handelt). Dieses Datenformat entspricht der Schreibweise diag(a,..., a n ). Für eine Diagonalmatrix der Größe n n braucht man dann nur O(n) viel Speicher. In diesem Fall nutzt man neben der dünnen Besetzung auch die besondere Struktur der Matrix aus. Für unstrukturierte dünn besetzte Matrizen, also solche, bei denen die Lage der Nullen keinem klaren Schema folgt, gibt es mehrere brauchbare Datenformate. Bei einem davon codiert man die Matrix durch eine Menge von Tripeln (i, j, a i,j ), die für jeden Nicht-Null-Eintrag der Matrix dessen Position und den Wert enthalten. Die Codierung einer n m-matrix mit s Nicht-Null-Einträgen braucht dann O(s) viel Speicher. Beispiel. Eine Codierung der Matrix im beschriebenen Format ist { (6, 7, 4), (22, 3, 6), (23,, 3), (22, 2, 7), (8, 2, 4), (8, 8, 2), (9, 22, ), (, 2, 4), (5, 22, 8), (3, 9, 7), (9, 4, 5), (, 5, 4), (, 23, 9), (3, 4, 8), (3, 5, 3), (4, 9, 7), (2, 7, 4), (4, 9, 2), (, 7, 7), (, 23, 7), (, 2, ), (2, 2, 6), (4, 5, 4), (2, 4, 5), 272

273 (6, 6, 7), (5, 2, 3), (8, 24, 2), (, 7, 3), (23, 8, 2), (, 3, 5), (6, 2, 8), (24, 2, 7), (4, 2, 9), (4,, 5), (4, 3, 3), (25, 2, 3), (7, 3, 3), (7, 3, 4), (2, 4, 5), (, 25, 8), (7, 2, 9), (7, 9, 6), (6,, 7), (5, 25, 4), (23, 2, 7), (8, 6, ), (25, 6, 3), (, 4, 4), (5, 7, 7), (23, 6, 8) } Algorithmus 2. Eingabe: A K n m, B K m k im oben beschriebenen Datenformat. Ausgabe: C = AB im gleichen Format setze C = 2 für alle Einträge (i, j, a i,j ) von A: 3 für alle Einträge (p, q, b p,q ) von B: 4 falls j = p: 5 durchsuche C nach einem Eintrag (i, q, c i,q ) 6 wenn es einen solchen gibt: 7 ersetze darin c i,q durch c i,q + a i,j b p,q 8 sonst: 9 C = C {(i, q, a i,j b p,q )} gib C als Ergebnis zurück Satz 39. Angewandt auf Matrizen A, B mit je höchstens s Nicht-Null-Einträgen braucht Algorithmus 2 nicht mehr als 2s 2 Operationen in K. Beweis. Bei jeder Ausführung der Schritte 4 8 finden höchstens 2 Operationen statt, nämlich entweder eine Addition und eine Multiplikation in Schritt 7, oder nur eine Multiplikation in Schritt 9, oder gar keine Operationen. Schritt 3 bewirkt, dass die Schritte 4 8 höchstens s mal durchlaufen werden, und Schritt 2 bewirkt, dass Schritt 3 höchstens s mal durchlaufen wird, so dass die Schritte 4 8 insgesamt höchstens s 2 mal durchlaufen werden. Auch beim Lösen von Gleichungsystemen kann man Nullen ausnutzen, besonders dann, wenn man etwas über die Lage der Nullen weiss, etwa, dass alle Einträge unterhalb der Diagonalen Null sind. Beispiel. Sei A = ((a i,j )) n i,j= Kn n eine invertierbare obere Dreiecksmatrix, d.h. die Diagonaleinträge a i,i (i =,..., n) sind alle von Null verschieden und a i,j = für alle j < i n.. A = Dann kann man zu gegebenem b K n n die Lösung x K n des Gleichungssystems Ax = b mit O(n 2 ) Operationen berechnen, und zwar mit folgendem Algorithmus: 273

274 Algorithmus 3. Eingabe: A = ((a i,j )) n i,j= Kn n wie oben, b K n Ausgabe: x K n so, dass Ax = b für i = n, n,..., : 2 x i = b i 3 für j = i +,..., n: x i = x i a i,j x j 5 x i = x i a i,i 6 gib (x,..., x n ) als Ergebnis zurück. Wenn man nicht vorher weiss, wo die Nullen stehen, verwendet man eine Variante des Gauss-Algorithmus. Dabei wählt man für die Elimination Zeilen aus, in denen möglichst viele Nullen stehen. Eine solche Wahl hat zwei Vorteile: erstens braucht man für die Spalten, in denen die ausgewählte Zeile eine Null hat, keine Rechnungen durchführen, und zweitens bleiben etwaige Nullen, die in diesen Spalten stehen, erhalten. Letzteres ist für den weiteren Verlauf der Rechnung von Vorteil. : + + Wenn in der ausgewählten Zeile p Nicht-Null-Einträge stehen und die erste Spalte der aktuellen Teilmatrix q Nicht-Null-Einträge hat, dann muss man mit einem sogenannten fill-in von bis zu (p )(q ) Einträgen in die Restmatrix rechnen. Man kann die Zahl der Optionen erhöhen, indem man neben Vertauschungen von Zeilen auch Vertauschungen von Spalten zulässt. Eine Zeilenoperation entspricht ja einer Multiplikation mit einer Elementarmatrix von links und ändert den Kern der Matrix nicht (Ax = UAx = für alle U GL(n, K)). Eine Spaltenoperation entspricht einer Multiplikation von rechts, und eine solche verändert zwar im allgemeinen den Kern, aber es gilt natürlich Ax = AV V x = für alle V GL(n, K). Vertauschungen von Spalten kann man deshalb gestatten, sofern man jede solche Vertauschung auch auf die Koordinaten des Lösungsvektors anwendet. Für die Handrechnung empfiehlt es sich, die Koordinaten des gesuchten Vektors (also die Variablen des Gleichungssystems) über die entsprechenden Spalten der Matrix zu schreiben. Beispiel. Gesucht ist ker A für A = Q In der folgenden Rechnung ist für jede Zeile und jede Spalte notiert, wie viele Nicht-Null- Einträge sie hat. Zur Elimination wird in jedem Schritt ein Nicht-Null-Eintrag (i, j) mit 274

275 minimalem fill-in verwendet. Zur besseren Lesbarkeit schreiben wir statt. x 7 x x 2 x 3 x 4 x 5 x x 7 x 2 x x 3 x 4 x 5 x x 2 x 6 x 3 x 4 x 5 x x x 2 x 6 x 3 x 4 x 5 x x ( ) x 2 x 6 x 4 x 3 x 5 x x x 2 x 6 x 4 x x 5 x 3 x x 2 x 6 x 4 x x 5 x 3 x x 2 x 6 x 4 x x 5 x 3 x

276 x 7 x 2 x 6 x 4 x x 5 x 3 = ker A =, x 2 x 6 x 4 x x 5 x 3 x 7 Die Vertauschungen der Spalten werden durch die entsprechenden Vertauschungen der Koordinaten der Lösungsvektors kompensiert. 45 Strukturierte Matrizen Unter strukturierten Matrizen versteht man Matrixen, bei denen zwischen den Einträgen gewisse bekannte Beziehungen bestehen, die man in Algorithmen ausnutzen kann. Ein Beispiel für strukturierte dünn besetzte Matrizen sind Diagonalmatrizen. Eine strukturierte Matrix muss aber nicht unbedingt dünn besetzt sein. Definition 87. Sei A = ((a i,j )) n i,j= Kn n.. A heißt Hankel-Matrix, falls für alle i, j < n gilt a i,j+ = a i+,j. 2. A heißt Töplitz-Matrix, falls für alle i, j < n gilt a i+,j+ = a i,j. Beispiel. Satz ist eine Hankel-Matrix und 4 2 ist eine Töplitz-Matrix Das Produkt zweier Hankel-Matrizen der Größe n n kann mit O(n 2 ) Körperoperationen berechnet werden. 2. Das Produkt zweier Töplitz-Matrizen der Größe n n kann mit O(n 2 ) Körperoperationen berechnet werden. Beweis.. Seien A = ((a i,j )) n i,j=, B = ((b i,j)) n i,j=, C = AB = ((c i,j)) n i,j=. Dann gilt c i,j = n k= a i,kb k,j für alle i, j. Die Berechnung dieser Summe für ein Paar (i, j) kostet 2n Operationen (n Multiplikationen und n Additionen). Wir können zunächst c,, c,2,..., c,n und c 2,,..., c n, auf diese Weise berechnen. Das kostet insgesamt (2n ) 2 Operationen. Für jedes i, j < n gilt c i+,j+ = n a i+,k b k,j+ k= 276

277 a i+,k b k,j+ + a i+,n b n,j+ n = k= n = a i,k+ b k+,j + a i+,n b n,j+ = k= n a i,k b k,j + a i+,n b n,j+ k=2 = c i,j a i, b,j + a i+,n b n,j+. Jeder der Einträge c i+,j+ lässt sich also mit nur vier Operationen aus dem vorherigen Eintrag c i,j berechnen. Da (n ) 2 Einträge zu berechnen sind, kostet die Berechnung der c i,j für i, j > nicht mehr als 4(n ) 2 Operationen. Zusammen mit den Kosten für die Berechnung von c,j und c i, (i, j =,..., n) ergibt sich ein Aufwand von (2n ) 2 + 4(n ) 2 = 8n 2 2n + 5 = O(n 2 ), wie behauptet. 2. Analog Beispiel. Betrachte A = und B = Sei C = ((c i,j )) 3 i,j= = AB Wir berechnen zuerst Die restlichen Einträge ergebnen sich zu c, = = 44 c,2 = = 5 c,3 = = 26 c 2, = = 65 c 3, = = 86 c 2,2 = c, a, b, + a 2,3 b 3,2 = = 74 c 3,3 = c 2,2 a 2, b,2 + a 3,3 b 3,3 = = 6 c 2,3 = c,2 a, b,2 + a 2,3 b 3,3 = = 43 c 3,2 = c 2, a 2, b, + a 3,3 b 3,2 = = 98 Beachten Sie, dass das Produkt zweier Hankel-Matrizen im allgemeinen keine Hankel-Matrix mehr ist: C = AB = Für Hankel- und Töplitz-Matrizen lassen sich auch die Inversen (sofern sie existieren) und die Determinanten mit nur O(n 2 ) Operationen berechnen. Wir wollen hier nicht ausführen, wie das geht, sondern uns stattdessen einer anderen Art von strukturierten Matrizen zuwenden. 277

278 Definition 88. Seien u,..., u n K paarweise verschieden. Dann heißt die Vandermonde Matrix zu u,..., u n. u u n u 2 u n 2 V (u,..., u n ) :=.. Kn n u n un n Die Vandermonde-Matrix tritt auf im Zusammenhang mit der Auswertung von Polynomen. Ist p = p + p X + + p n X n K[X] und u,..., u n K, so gilt In Abschnitt 2 haben wir gesehen, dass p(u ) u u n p.. = u 2 u n p(u n ) u n u n n p n det V (u,..., u n ) = n i (u i u j ) i=2 j= ist, wenn die u i paarweise verschieden sind. Die Matrix V (u,..., u n ) ist dann also invertierbar. Daraus folgt, dass es für jede Wahl von paarweise verschiedenen u,..., u n K und jede Wahl von (nicht notwendigerweise paarweise verschiedenen) y,..., y n K genau ein Polynom p = p + p X + + p n X n K[X] gibt mit p(u i ) = y i für i =,..., n. Man nennt dieses p das Interpolationspolynom für (u, y ),..., (u n, y n ). Die Berechnung des Interpolationspolynoms durch Lösen des Gleichungssystems mit dem Gauß-Algorithmus würde O(n 3 ) Operationen kosten. Wir wollen zeigen, dass es schon mit O(n 2 ) Operationen gelingt. Dazu erinnere man sich zunächst, dass die Auswertung eines Polynoms dasselbe ist wie die Division mit Rest durch ein lineares Polynom: rem(p, X u) = p(u) für p K[X] und u K. Die Menge aller Polynome, die bei einem vorgegebenen u K einen vorgegebenen Wert y annehmen, lässt sich schreiben als { y + (X u)p : p K[X] } = y + (X u)k[x] = [y] X u K[X]/(X u)k[x]. Dabei gilt, wie üblich, die Definition p X u q : X u p q. Die Menge der Polynome, die bei zwei vorgegebenen u, u 2 K (u u 2 ) zwei vorgegebene Werte y, y 2 K annehmen, ist demnach [y ] X u [y 2 ] X u Zwei Polynome haben an zwei Punkten u, u 2 K mit u u 2 genau dann denselben Wert, wenn ihre Differenz an diesen Stellen den Wert hat, und dies ist genau dann der Fall, wenn die Differenz ein Vielfaches von (X u )(X u 2 ) ist. Es ist deshalb nicht überraschend, dass der Schnitt einer Äquivalenzklasse bezüglich X u mit einer Äquivalenzklasse bezüglich X u2 eine Äquivalenzklasse bezüglich (X u)(x u 2) ist. Der folgende Satz sagt, dass das nicht nur für Polynome X u, X u 2 sondern für beliebige teilerfremde Polynome gilt. Es gibt sogar eine analoge Aussage für Z statt K[X]. 278

279 Satz 4.. (Newton-Interpolation) Seien p, p 2 K[X] mit gcd(p, p 2 ) =, und seien u, u 2 K[X]. Weiter seien q, q 2 K[X] so, dass q p + q 2 p 2 =. Dann gilt [u ] p [u 2 ] p2 = [u + p q rem(u 2 u, p 2 )] p p (Chinesischer Restsatz) Seien p, p 2 Z mit gcd(p, p 2 ) =, und seien u, u 2 Z. Weiter seien q, q 2 Z so, dass q p + q 2 p 2 =. Dann gilt [u ] p [u 2 ] p2 = [u + p q rem(u 2 u, p 2 )] p p 2. [7] 35 = [2] 5 [3] 7 [3] 7 [2] Beweis.. Sei m [u ] p [u 2 ] p2. Zu zeigen: m p p 2 u + p q rem(u 2 u, p 2 ). Wegen m [u ] p gilt m = u + vp für ein v K[X], und wegen m [u 2 ] p2 gilt m = u 2 + wp 2 für ein w K[X]. Daraus folgt: wie behauptet. m = (q p + q 2 p 2 )m = q p (u 2 + wp 2 ) + q 2 p 2 (u + vp ) = q p u 2 + q 2 p 2 u + p p 2 (q w + q 2 v) p p 2 q p u 2 + q 2 p 2 u = q p u 2 + q 2 p 2 u + q p u q p u = u + q p (u 2 u ) ( = u + q p p2 quo(u 2 u, p 2 ) + rem(u 2 u, p 2 ) ) p p 2 u + q p rem(u 2 u, p 2 ), Sei m [u + p q rem(u 2 u, p 2 )] p p 2, etwa m = u + p q rem(u 2 u, p 2 ) + p p 2 w für ein w K[X]. Mit w = v + quo(u 2 u, p 2 )q gilt dann m = u + p q (u u ) + p p 2 v. Daraus folgt m p = u, also m [u ] p, und wegen m = u + ( q 2 p 2 )(u 2 u ) + p p 2 v = u 2 + p 2 (q 2 (u u 2 ) + p v) auch m p2 = u Genauso. 279

280 Beispiel.. Gesucht ist ein Polynom u K[X] mit u() = 2, u(2) =, u(3) = 2 und u(4) = 5. Man findet ein solches durch wiederholte Anwendung des Satzes. u u 2 p p 2 q q 2 u +p q rem(u 2 u, p 2 ) 2 X X 2 5 3X 5 3X 2 (X )(X 2) X X 2X+3X2 2X+3X 2 5 (X )(X 2)(X 3) X X 6 X2 7 23X+9X 2 X Gesucht ist jetzt eine Zahl u Z mit u 3, u 5 3, u 7 4, und u 3 5. Man findet eine solche Zahl durch eine analoge Rechnung: u u 2 p p 2 q q 2 u +p q rem(u 2 u, p 2 ) Algorithmus 4. (Newton-Interpolation) Eingabe: u,..., u n K paarweise verschieden, und y,..., y n K. Ausgabe: das Polynom f = f + f X + + f n X n K[X] mit f(u i ) = y i für alle i. setze f = y, p = 2 für i = 2,..., n: 3 setze p = (X u i )p 4 setze f = f + p p(u i ) rem(y i f, X u i ) 5 gib f als Ergebnis zurück. Satz 42. Algorithmus 4 ist korrekt und braucht nicht mehr als O(n 2 ) Operationen in K. Beweis. Korrektheit: Wir zeigen durch Induktion nach i, dass am Beginn des iten Schleifendurchlaufs gilt p = (X u ) (X u i ) und f(u j ) = y j für alle j i. Für i = 2 ist das durch Schritt gewährleistet. Angenommen es gilt für i. Nach Schritt 3 gilt dann p = (X u ) (X u i 2 )(X u i ). Es gilt gcd(p, X u i ) =, weil u,..., u n nach Voraussetzung paarweise verschieden sind. Ferner folgt aus p = quo(p, X u i )(X u i )+ rem(p, X u i ) und rem(p, X u i ) = p(u i ) die Gleichung p(u i ) p quo(p, X u i) (X u i ) =, p(u i ) 6-6 und deshalb folgt aus Satz 4, dass nach Schritt 4 f(u i ) = y i gilt, und dass rem(f, p) der vorherige Wert von f ist. Da für diesen nach Induktionsannahme gilt f(u j ) = y j für alle j i und weil p(u j ) = für alle j i gilt, folgt f(u j ) = y j für alle j i. Komplexität: Bei jedem Durchlauf durch die Schritte 3 und 4 sind f und p Polynome vom Grad n. Da X u i und X u i Polynome vom Grad sind, kostet die Berechnung von (X u i )p jeweils nur O(n) Operationen, ebenso jene von p(u i ) = rem(p, X u i ) und die von rem(y i f, X u i ) = (y i f)(u i ). Die Berechnung von rem(y i f, X u i )/p(u i ) K kostet eine Operation, die Multiplikation dieses Körperelements mit p kostet O(n) Operationen, und 28

281 die Subtraktion des Resultats von f noch einmal O(n). Insgesamt kostet die Durchführung der Schritte 3 und 4 also O(n) Operationen in K. Wegen Schritt 2 werden die Schritte 3 und 4 insgesamt n mal durchlaufen. Daraus ergibt sich die behauptete Komplexität. Wenn es noch schneller gehen soll, kann man sich durch eine geeigente Wahl von u,..., u n eine noch strukturiertere Matrix verschaffen. Für diese spezielle Vandermonde Matrix lässt sich die Matrix- Vektor-Multiplikation mit einem beliebigen (unstrukturierten) Vektor mit nur O(n log(n)) Operationen durchgeführen. Auch die Interpolation ist dann mit diesem Aufwand möglich. Definition 89. Sei n N \ {}.. ω K heißt n-te Einheitswurzel (engl. root of unity), falls ω n = ist. 2. Eine n-te Einheitswurzel heißt primitiv, falls ω i für i =,..., n. 3. Ist ω eine primitive n-te Einheitswurzel, so heißt die Matrix Beispiel. DFT (ω) n := V (, ω,..., ω n ) = ((ω ij )) n i,j= Kn n die diskrete Fouriertransformation der Größe n zur Einheitswurzel ω. Man beachte, dass die Einträge der Matrix von bis n statt wie üblich von bis n indiziert werden.. ist eine n-te Einheitswurzel für jedes n N, aber nur für n = eine primitive. 2. ist eine primitive zweite Einheitswurzel. In Q und R gibt es außer und keine weiteren Einheitswurzeln. 3. i C ist eine primitive vierte Einheitswurzel, denn i 4 = und i = i, i 2 = und i 3 = i. Es gilt DFT (i) 4 = i i i i Allgemeiner: zu jedem n N\{} ist ω = exp(2πi/n) eine primitive n-te Einheitswurzel in C. Die Zahlen ω, ω 2,..., ω n = bilden in der komplexen Zahlenebene die Ecken eines regelmäßigen n-ecks, dessen Ecken auf dem Einheitskreis liegen. ω 3 ω 4 Im ω 2 ω 6 ω 5 ω = exp(2πi/7) Re ω 7 = 28

282 Die n-ten Einheitswurzeln sind genau die Nullstellen des Polynoms X n : X n = (X )(X ω)(x ω 2 ) (X ω n ). Wegen ω i ω j = ω i+j = ω i+j+kn für alle i, j, k Z bilden die n-ten Einheitswurzeln zusammen mit der Multiplikation eine abelsche Gruppe, die isomorph zu (Z n, +) ist. 4. In Z 7 = Z/7Z ist 9 eine primitive 8-te Einheitswurzel: i i Jedes der Elemente in der zweiten Zeile ist eine 8-te Einheitswurzel, die Elemente 9, 5, 8, 2 sind primitiv. Die Elemente 3 und 4 sind primitive vierte Einheitswurzeln, und 6 = ist eine primitive zweite Einheitswurzel. In einem Körper Z p für p Z prim gilt x p = für jedes Element x Z \ {} (kleiner Satz von Fermat). Jedes Element von Z p \ {} ist also eine Einheitswurzel. 6-7 Satz 43. (Cooley-Tuckey) Sei n N \ {} und sei ω eine primitive 2n-te Einheitswurzel. Weiter sei = diag(, ω, ω 2,..., ω n ) K n n und P K 2n 2n sei die Permutationsmatrix, für die gilt P (x, x, x 2, x 3,... ) = (x, x 2, x 4,..., x, x 3, x 5,... ). Dann gilt DFT (ω) ( ) ( ) ( (ω 2n = In I n In DFT 2 ) ) n I n I n DFT (ω2 ) P. n Beweis. Sei x = (x, x,..., x 2n ) K 2n beliebig und y = (y,..., y 2n ) = DFT (ω) 2n x. Für i =,..., 2n gilt dann y i = 2n j= n ω ij x j = j= n ω i(2j) x 2j + j= n n ω i(2j+) x 2j+ = (ω 2 ) ij x 2j + ω i (ω 2 ) ij x 2j+. j= j= 6-7 Da ω eine 2n-te Einheitswurzel ist, gilt ω 2n =. Daraus folgt ω n {, } (unabhängig vom Körper K), und weil ω eine primitive 2n-te Einheitswurzel ist, folgt ω n =. Für i < n gilt deshalb ω i+n = ω i und (ω 2 ) i+n = (ω 2 ) i ω 2n = (ω 2 ) i, und daraus folgt Insgesamt erhält man wie behauptet. ( (yi ) n ) i= (y i+n ) n = i= n n y i+n = (ω 2 ) ij x 2j ω i (ω 2 ) ij x 2j+. j= j= ( DFT (ω2 ) n DFT (ω2 ) n DFT (ω2 ) n DFT (ω2 ) n ) ( (x2i ) n i= (x 2i+ ) n i= ), 282

283 Beispiel. Für n = 2 und ω = i C gilt DFT (i) 4 = i }{{} = i } i {{ } = i i } i i {{ } = i i i i Die Formel aus Satz 43 führt die Anwendung einer DFT auf die Anwendung zweier DFTs der halben Größe zurück. Diese kleineren DFTs lassen sich mit der gleichen Formel in noch kleinere zerlegen, und so weiter, bis man bei einer ungeraden Problemgröße angekommen ist. Wenn die ursprüngliche Problemgröße eine Zweierpotenz ist, also n = 2 k für ein k N gilt, dann erreicht man nach k = log 2 (n) vielen Zerlegungsschritten die DFT der Größe. Für diese ist wegen DFT () = I nichts zu rechnen. Algorithmus 5. (FFT; Fast Fourier Transform) Eingabe: Ein Vektor x = (x,..., x n ) K n mit n = 2 k für ein k N, und eine n-te Einheitswurzel ω K. Ausgabe: DFT (ω) n x. wenn n = ist, gib x als Ergebnis zurück und stop. 2 wende den Algo. auf (x, x 2,..., x n 2 ) und ω 2 an. Das Ergebnis sei u = (u,..., u n/2 ). 3 wende den Algo. auf (x, x 3,..., x n ) und ω 2 an. Das Ergebnis sei v = (v,..., v n/2 ). 4 q = 4 für i =,..., n/2 : 5 y i = u i + qv i 6 y i+n/2 = u i qv i q = ωq 8 gib (y, y,..., y n ) als Ergebnis zurück. 283

284 x x u + y x x 2 x 2 x 4 DFT (ω2 ) 4 u u y y 2 x 3 x 6 u 3 + y 3 x 4 x 5 x 6 x 7 x x 3 x 5 x 7 DFT (ω2 ) 4 v v v 2 v 3 ω ω ω 2 ω 3 y 4 y 5 y 6 y 7 Satz 44. Algorithmus 5 braucht nicht mehr als O(n log(n)) Operationen in K. 6-6 Beweis. Es sei T (n) die Zahl der Operationen für die Problemgröße n = 2 k. Die beiden rekursiven Aufrufe in den Zeilen 2 und 3 brauchen dann je T (n/2) Operationen. Darüber hinaus ist eine Operation für die Berechnung von ω 2 nötig. In den Zeilen 5 7 werden insgesamt fünf Operationen durchgeführt, und Zeile 4 bewirkt, dass diese drei Zeilen n/2 mal ausgeführt werden. Daraus folgt die Abschätzung T (n) 2T (n/2) + 5 2n +. Wir zeigen induktiv T (n) 3nk für k. Für k = sind keine Operationen nötig, T () = 5 = ist also richtig. Betrachte nun ein k N, für das T (2 k ) 3nk gilt. Dann gilt T (2 k+ ) = T (2n) = 2T (n) + 5n + 2(3nk) + 5n + 6n(k + ) = 3 2 k+ (k + ), wie behauptet. Mit dem FFT-Algorithmus kann man zu einem gegebenen Polynom p K[X] vom Grad n 2 k den Wertevektor (p(), p(ω),..., p(ω 2k )) K 2k für eine 2 k -te Einheitswurzel ω berechnen. Aus dem folgenden Satz folgt, dass man den FFT-Algorithmus auch zur Interpolation verwenden kann, wenn ω eine primitive 2 k -te Einheitswurzel ist. Satz 45. Sei ω K eine primitive n-te Einheitswurzel in K.. Für j =,..., n gilt n i= ωij =. 2. /ω ist auch eine primitive n-te Einheitswurzel und (DFT (ω) n ) = n DFT(/ω) n. Beweis.. Für alle q gilt n i= qi = qn q (geometrische Reihe). Daraus folgt n (q n ) = (q ) für alle q. Es gilt ω n =, weil ω eine n-te Einheitswurzel ist. Damit gilt auch (ω j ) n = ω jn = (ω n ) j =. Weil ω nach Annahme eine primitive n-te Einheitswurzel ist, gilt ω j für j =,..., n. Für q = ω j folgt also i= n = (ω j ) ω ij, }{{} i= 284 q i

285 wie behauptet. 2. Dass /ω auch eine primitive n-te Einheitswurzel ist, folgt aus (/ω j ) = ω j = für alle j N. Sei (i, j) {,..., n } 2 beliebig und c i,j der (i, j)-te Eintrag von DFT (ω) n DFT (/ω) n (wobei die Einträge dieser Matrix von bis n indiziert werden). Dann gilt gemäß Teil : n c i,j = ω ik ( n ω )kj = ω (i j)k = k= 46 Schnelle Multiplikation k= { n falls i = j sonst Für den Standardmultiplikationsalgorithmus für n n-matrizen (Alg. ) haben wir eine Komplexität von O(n 3 ) festgestellt. Im vorherigen Abschnitt haben wir gesehen, dass sich bestimmte strukturierte Matrizen, z.b. Töplitz-Matrizen, mit einer geringeren Komplexität multiplizieren lassen. In diesem Abschnitt werden wir sehen, dass sich n n-matrizen auch ohne besondere Annahmen über die Struktur mit weniger als O(n 3 ) Operationen multiplizieren lassen. Auch für die Polynommultiplikation lässt sich der Standardalgorithmus (Alg. 9) verbessern. Betrachten wir dieses Problem als erstes. Das Prinzip ist ähnlich wie beim FFT-Algorithmus (Alg. 5): man zerlegt das Problem in mehrere kleine Probleme des gleichen Typs, löst diese rekursiv mit demselben Algorithmus und setzt aus den Ergebnissen der kleinen Probleme das Ergebnis des ursprünglichen Problems zusammen. Betrachte a, b K[X] mit deg a, deg b < n = 2 k. Schreibe a = a + a X n/2, b = b + b X n/2 für a, a, b, b K[X] vom Grad < n/2. Dann gilt ab = (a + a X n/2 )(b + b X n/2 ) = a b + (a b + a b )X n/2 + a b X n. Man kann also die Multiplikation zweier Polynome a, b auf vier Multiplikationen von Polynomen halber Größe und O(n) Additionen zurückführen. Es zeigt sich allerdings, dass das gegenüber dem Standardalgorithmus noch keine Einsparung bringt. Die wesentliche Beobachtung ist, dass man mit einer Multiplikation weniger auskommt. Berechnet man nämlich nur die drei Produkte u = a b, v = a b, w = (a + a )(b + b ), so gilt ab = u+(w u v)x n/2 +vx n/2, d.h. die Multiplikation von ab ist auf nur drei Multiplikationen halber Größe und O(n) Additionen in K zurückgeführt. Algorithmus 6. (Karatsuba) Eingabe: a, b K[X] mit deg a, deg b < n = 2 k. Ausgabe: ab Falls n, berechne ab direkt, gibt das Ergebnis zurück und stop. 2 Schreibe a = a + a X n/2, b = b + b X n/2 für a, a, b, b K[X] vom Grad < n/2. 3 Berechne u = a b mit diesem Algorithmus. 4 Berechne v = a b mit diesem Algorithmus. 5 Berechne w = (a + a )(b + b ) mit diesem Algorithmus. 6 Berechne u + (w u v)x n/2 + vx n und gib dies als Ergebnis zurück. 285

286 Satz 46. Algorithmus 6 braucht nicht mehr als O(n log 2 3 ) = O(n.585 ) Operationen in K. Beweis. Sei T (n) die Zahl der Operationen. Dann gilt T () und es gibt ein c so dass für alle n = 2 k N gilt T (n) 3T (n/2) + cn. Wir zeigen T (2 k ) 2c3 k c2 k = O(3 k ) = O(n log 2 3 ) für alle k N durch Induktion nach k. Für k = ist 2c3 c2 = 2c c = c T (). Ist k N so, dass die Abschätzung für k gilt, so folgt T (2 k ) 3T (2 k ) + c2 k 3(2c3 k c2 k ) + c2 k 2c3 k+ 3c2 k + c2 k = 2c3 k+ c2 k+, wie behauptet. Es geht noch schneller. Nehmen wir an, wir wollen zwei Polynome a, b K[X] vom Grad < n multiplizieren. Dann gilt deg(ab) = deg(a) + deg(b) < 2n. Das Produkt ab ist also durch seine Werte an 2n paarweise verschiedenen Punkten eindeutig festgelegt. Sind u,..., u 2n K paarweise verschieden, so lassen sich die Werte (ab)(u i ) = a(u i )b(u i ) für i =,..., 2n mit geringem Aufwand aus den Werten a(u i ) und b(u i ) berechnen. Das motiviert einen Algorithmus nach folgendem Schema: Wähle paarweise verschiedene u,..., u 2n K 2 Berechne a(u ),..., a(u 2n ) aus den bekannten Koeffizienten von a 3 Berechne b(u ),..., b(u 2n ) aus den bekannten Koeffizienten von b 4 Berechne a(u )b(u ),..., a(u 2n )b(u 2n ) 5 Berechne aus diesen Daten die Koeffizienten von ab und gib diese als Ergebnis zurück. Die Multiplikationen in Schritt 4 kosten dann O(n) Operationen. Wenn man als u i die Potenzen einer primitiven 2n-ten Einheitswurzel nimmt, kann man für die Evaluationen und die Interpolation den FFT-Algorithmus einsetzen, so dass diese Schritte nicht mehr als O(n log n) Operationen brauchen. Koeffizienten von a Koeffizienten von b DFT (ω) 2n DFT (ω) 2n Werte von a Werte von b Werte von ab 2n DFT(/ω) 2n Koeffizienten von ab 6-7 Satz 47. Sei k N und n = 2 k. Wenn es in K eine primitive 2n-te Einheitswurzel gibt, dann kann man Polynome a, b K[X] mit deg(a), deg(b) < n mit O(n log n) Operationen in K multiplizieren. Beweis. Die Aussage folgt direkt aus der vorangegangenen Diskussion. Nun zur Multiplikation von Matrizen. Die Grundidee ist ähnlich wie beim Algorithmus von Karatsuba. Die Matrix wird in Blöcke der halben Größe aufgeteilt, diese werden nach einem bestimmten Schema miteinander multipliziert, und die Ergebnisse der Teilprobleme werden zum Ergebnis des ursprünglichen Problems zusammengesetzt. Dass man mit Matrix-Blöcken rechnen kann wie mit skalaren Matrixeinträgen, klärt der folgende Satz. 286

287 Satz 48. Seien A K (n +n 2 ) (k +k 2 ), B K (k +k 2 ) (m +m 2 ), C = AB K (n +n 2 ) (m +m 2 ). Schreibe ( ) ( ) ( ) A, A A =,2 B, B, B =,2 C, C, C =,2 A 2, A 2,2 B 2, B 2,2 C 2, C 2,2 für A i,j K n i k j B i,j K k i m j und C i,j K n i m j für i, j {, 2}. Dann gilt C, = A, B, + A,2 B 2,, C,2 = A, B,2 + A,2 B 2,2, C 2, = A 2, B, + A 2,2 B 2,, C 2,2 = A 2, B,2 + A 2,2 B 2,2. = Beweis. Wir beweisen den Spezialfall n = n 2 = k = k 2 = m = m 2 =: n. Den allgemeinen Fall kann man sich zur Übung selbst überlegen. Schreibe A = ((a i,j )) 2n i,j=, B = ((b i,j)) 2n i,j=, C = ((c i,j)) 2n i,j=. Dann gilt A, = ((a i,j )) n i,j=, A,2 = ((a i,j+n )) n i,j=, A 2, = ((a i+n,j )) n i,j=, A 2,2 = ((a i+n,j+n )) n i,j=, und entsprechend für die Blöcke in B und C. Sei (i, j) {,..., 2n} 2 beliebig. Dann gilt c i,j = 2n k= a i,k b k,j = n a i,k b k,j + k= Daraus folgt die Behauptung. 2n k=n+ a i,k b k,j = n a i,k b k,j + k= n a i,k+n b k+n,j. Das Schema aus dem Satz führt eine Matrixmultiplikation der Größe 2n 2n auf acht Matrixmultiplikationen der Größe n n und vier Additionen der Größe n n zurück. Eine Einsparung gegenüber dem Standardalgorithmus ergibt sich damit noch nicht. Wie beim Karatsuba-Algorithmus kommt der Effizienzgewinn aus der Beobachtung, dass man mit einer Multiplikation weniger auskommt. Algorithmus 7. (Strassen) Eingabe: A, B K n n, n = 2 k Ausgabe: C = AB Falls n = ist, berechne AB direkt, gib das Ergebnis zurück und stop. ( ) ( ) A, A 2 Schreibe A =,2 B, B und B =,2. A 2, A 2,2 B 2, B 2,2 3 Berechne die folgenden Matrizen durch rekursive Anwendung dieses Algorithmus: k= M = (A, + A 2,2 )(B, + B 2,2 ), M 2 = (A 2, + A 2,2 )B,, M 3 = A, (B,2 B 2,2 ), M 4 = A 2,2 (B 2, B, ), M 5 = (A, + A,2 )B 2,2, M 6 = (A 2, A, )(B, + B,2 ), M 7 = (A,2 A 2,2 )(B 2, + B 2,2 ) 287

288 4 Berechne die folgenden Matrizen: C, = M + M 4 M 5 + M 7, C,2 = M 3 + M 5, C 2, = M 2 + M 4, C 2,2 = M M 2 + M 3 + M 6 ( ) C, C 5 Gib C =,2 als Ergebnis zurück. C 2, C 2,2 Satz 49. Algorithmus 7 ist korrekt und braucht nicht mehr als O(n log 2 7 ) = O(n 2.8 ) Operationen in K. Beweis. Die Korrektheit ergibt sich durch direktes Nachrechnen mit Satz 48, z.b. C,2 = M 3 + M 5 = A, (B,2 B 2,2 ) + (A, + A,2 )B 2,2 = A, B,2 A, B 2,2 + A, B 2,2 + A,2 B 2,2 = A, B,2 + A,2 B 2,2. Für die Behauptung über die Komplexität sei T (n) die Zahl der Operationen, die der Algorithmus für Matrizen der Größe n n aufwendet. Dann gilt T () = und es gibt ein c so dass für alle n = 2 k N gilt T (n) 7T (n/2) + cn 2. Wir zeigen T (2 k ) 2c7 k c4 k+ = O(7 k ) = O(n log 2 7 ) durch Induktion nach k. Für k = ist 2c7 c4 = 7c 4c = 3c = T (). Ist k N so, dass die Abschätzung für k gilt, so folgt T (2 k ) 7T (2 k ) + c4 k 7(2c7 k c4 k ) + c4 k = 2c7 k 6c4 k 2c7 k c4 k+, wie behauptet. Man kennt auch Algorithmen, die für sehr große n noch effizienter sind als der Algorithmus von Strassen. Der derzeitige Weltrekord ist aus dem Jahr 24 und liegt bei einer Komplexität von O(n ω ) für ω Diese Algorithmen bringen allerdings erst bei unrealistisch großen Matrizen einen Gewinn und sind deshalb bis auf weiteres nur von theoretischem Interesse. Der Strassen-Algorithmus ist dagegen durchaus praxistauglich. Abhängig von der Implemetierung und vom Grundkörper schlägt er den Standardalgorithmus ab einer Problemgröße zwischen und. 6-2 Nach Satz 38 lassen sich die meisten Probleme der linearen Algebra mit einer Komplexität von O(n 3 ) lösen. Nachdem die Multiplikation von Matrizen schneller möglich ist, kann man sich fragen, ob sich auch die anderen Probleme mit weniger als O(n 3 ) Operationen lösen lassen. Tatsächlich ist das der Fall. Wenn ω > 2 so ist, dass die Multiplikation zweier n n-matrizen mit O(n ω ) Operationen möglich ist, dann kann man det(a), A (wenn A invertierbar ist), eine Treppenform von A, sowie Basen von ker A, im A, coker A und coim A mit O(n ω ) Operationen berechnen. Jede Verbesserung der Komplexität von Matrix-Multiplikation führt sofort auch zu einer Verbesserung der Komplexität für die anderen genannten Probleme. Diese Zusammenhänge der Komplexität erhält man, indem man die Berechnung so umorganisiert, dass der wesentliche Teil der Rechnung in einer Matrix-Multiplikation steckt. Wir illustrieren dieses Prinzip hier exemplarisch für die Berechnung von A für eine invertierbare Matrix A K n n mit n = 2 k für ein k N. Teile A in Blöcke auf und wende den üblichen Algorithmus zum Invertieren von Matrizen auf die Blöcke an: ( A, A,2 I n/2 A 2, A 2,2 I n/2 ) P := A, 288 A 2, +

289 ( In/2 P A,2 P A 2,2 A 2, P A,2 I n/2 A 2, P I n/2 ( ) In/2 P P A,2 Q(I n/2 A 2, P ) P A,2 Q I n/2 Q(I n/2 A 2, P ) Q ) (A 2,2 A 2, P A,2 ) }{{} =:Q + P A,2 Die Invertierung der n n-matrix A lässt sich also zurückführen auf die Invertierung zweier Matrizen halber Größe plus einer konstanten Anzahl von Multiplikationen und Additionen von (n/2) (n/2)- Matrizen. Dabei ist strenggenommen noch zu berücksichtigen, dass A, möglicherweise nicht invertierbar ist, selbst wenn A invertierbar ist. Wenn man diesen Fall der Einfachheit halber ignoriert, erhält man folgenden Algorithmus. Algorithmus 8. Eingabe: A K n n invertierbar mit n = 2 k für ein k N. Ausgabe: A oder eine Fehlermeldung wenn n =, dann: 2 wenn A = ist, gib eine Fehlermeldung aus und brich die gesamte Rechnung ab. 3 anderenfalls berechne A direkt, gib das Ergebnis zurück und stop. ( ) A, A 4 schreibe A =,2 für A A 2, A i,j K n/2 n/2 2,2 5 berechne P = A, mit diesem Algorithmus 6 berechne C 2,2 = (A 2,2 A 2, P A,2 ) mit diesem Algorithmus 7 berechne C 2, = C 2,2 (I n/2 A 2, P ) 8 berechne C,2 = P A,2 C 2, berechne C, = P P A,2 C 2, ( ) C, C gib,2 als Ergebnis zurück. C 2, C 2,2 Satz 5. Sei ω 2 so, dass je zwei n n-matrizen mit O(n ω ) Operationen in K multipliziert werden können. Dann braucht Algorithmus 8 nicht mehr als O(n ω ) Operationen. Beweis. Sei c R und k N so, dass für alle k k die Multiplikation zweier 2 k 2 k - Matrizen nicht mehr als c2 kω Operationen braucht. Wir können o.b.d.a. c durch eine beliebige größere Konstante (unabhängig von n) ersetzen. Insbesondere können wir deshalb c annehmen. Sei T (n) die Zahl der Operationen, die der Algorithmus für Eingabegröße n = 2 k braucht. Die Invertierung der gegebenen n n-matrix wird zurückgeführt auf zwei Invertierungen von Matrizen halber Größe zu je T (n/2) Operationen, acht Multiplikationen zu je c(n/2) ω Operationen, drei Additionen und eine Multiplikation mit zu je (n/2) 2 Operationen. Wegen c und ω 2 ergibt sich T (n) 2T (n/2) + 2c(n/2) ω. 2c Wir zeigen T (2 k ) 2 ω 2 2kω für alle k k. Für k = k können wir o.b.d.a. annehmen, dass T (2 k ) 2c 2 ω 2 2kω gilt, indem wir c gegebenenfalls durch eine größere Konstante austauschen. Stimmt die Abschätzung für k N, so gilt T (2 k+ ) 2T (2 k ) + 2c2 kω 24c 2 ω 2 2kω + 2c2 kω = 24c + (2ω 2)2c 2 ω 2 kω = 2c 2 2 ω 2 2(k+)ω 289

290 Satz 5. Ist ω > 2 so, dass invertierbare n n-matrizen mit nicht mehr als O(n ω ) Operationen invertiert werden können, dann genügen auch O(n ω ) Operationen, um je zwei n n- Matrizen miteinander zu multiplizieren. Beweis. Seien c > und n N so, dass für alle n n die Invertierung von n n-matrizen mit cn ω oder weniger Operationen möglich ist. Wir zeigen, dass dann die Multiplikationen von n n-matrizen für alle n n mit 3 ω cn ω Operationen möglich ist. Dazu seien A, B K n n. Durch Nachrechnen und Satz 48 lässt sich bestätigen, dass I n A I n A AB I n B = I n B I n I n gilt. Die Berechnung dieser Inversen braucht nach Voraussetzung nicht mehr als c(3n) ω Operationen, und das gewünschte Matrixprodukt lässt sich ohne weitere Rechnung aus dem Ergebnis ablesen. 47 Numerische Algorithmen Mit den Elementen eines Körpers K rechnen zu können bedeutet, dass es Algorithmen gibt, die für je zwei gegebene Elemente a, b K die Elemente a + b, a b, a b und a b (falls b ) berechnen, sowie einen Algorithmus, der für jedes gegebene a K entscheiden kann, ob a = ist. Die Körperelemente müssen den Algorithmen in einem bestimmten vorher festgelegten Datenformat übergeben werden. Unter einem Datenformat kann man sich eine Abbildung vorstellen, die jedem Körperelement eine endlich lange Zeichenkette (Symbolfolge) zuordnet. Für ganze Zahlen kann man z.b. die gewöhnliche Darstellung als endliche Folge von Ziffern mit gegebenenfalls vorangestelltem Vorzeichen verwenden. Auch für rationale Zahlen und für Elemente von endlichen Körpern, oder auch für den Körper Q( 2) ist es nicht schwer, sich geeignete Darstellungen der Körperelemente zu überlegen, mit denen man rechnen kann. Für die Körper R und C dagegen ist das aus prinzipiellen Gründen nicht möglich. Da diese Körper überabzählbar viele Elemente haben und es nur abzählbar viele endlich lange Zeichenketten gibt, kann es kein Datenformat für reelle oder komplexe Zahlen geben. Man löst dieses Dilemma durch Approximation. Statt mit der Zahl x R selbst rechnet man z.b. mit einer Zahl x Q, für die x x klein ist. Man nennt dann x eine Näherung für x. Die Zahl x x nennt man den absoluten Fehler und die Zahl x x / x (falls x ) den relativen Fehler der Näherung x. Wenn x, ȳ zwei Näherungen an bestimmte Zahlen x, y R sind und wir wissen, dass x x < ɛ und y ȳ < ɛ für ein gewisses ɛ > gilt, dann ist x + ȳ eine Näherung an x + y, deren absoluter Fehler höchstes 2ɛ beträgt. Der Fehler der Näherung kann während einer Rechnung also größer werden. Algorithmen, die mit Näherungen arbeiten, nennt man numerische Algorithmen. Bei solchen Algorithmen spielt nicht nur die Komplexität eine Rolle, sondern darüber hinaus die Frage, um wieviel größer der Fehler im Ergebnis verglichen mit dem Fehler in der Eingabe ist. Dieses Fehlerwachstum möchte man, ebenso wie die Komplexität, möglichst klein halten. Der Minimierung des Fehlerwachstums sind dabei Grenzen gesetzt. Beispiel. Betrachte ein lineares Gleichungssystems Ax = b, von dem wir annehmen, dass A Q n n R n n exakt gegeben ist, während wir von der rechten Seite b R n \ {} nur eine Näherung b Q n kennen. Wenn x die Lösung des Gleichungssytems A x = b ist, wie nah wird dann x bei der Lösung x von Ax = b liegen? Es gilt b b = Ax A x = A(x x), 29

291 6-9 also A (b b) = x x, also x x = A (b b) A b b b b = A AA b b b A b b A x b b, also x x x A A b b b. Damit ist gezeigt, dass bei einem relativen Fehler von ɛ in der rechten Seite b mit einem A A -mal so großen relativen Fehler in der Näherung x von x zu rechnen ist. Definition 9. Sei A R n n invertierbar, die zur Standardnorm auf R n gehörende Matrixnorm. Dann heißt κ(a) := A A die Konditionszahl (engl. condition number) der Matrix A. Wegen = I n = A A A A = κ(a) ist die Konditionszahl nie kleiner als. Ist sie nicht zu viel größer, spricht man von einer gut konditionierten Matrix, anderenfalls von einer schlecht konditionierten. Satz 52. Sei A R n n invertierbar.. Sind σ n σ n σ > die Singulärwerte von A, so gilt κ(a) = σn σ Ist A symmetrisch und positiv definit, und sind λ n λ n λ > die Eigen- 6-9 werte von A, so gilt außerdem κ(a) = λn λ. Beweis.. Zunächst gilt A = σ n nach Satz 2. Wenn (U, Σ, V ) eine Singulärwertzerlegung von A ist, ist (V, Σ, U ) eine Singulärwertzerlegung von A. Die Singulärwerte von A sind deshalb /σ n,..., /σ. Daraus folgt A = max{/σ n,..., /σ } = /σ, wieder wegen Satz 2. Insgesamt folgt κ(a) = A A = σ σ n, wie behauptet. 2. Nach Satz 5 ist σ genau dann ein Singulärwert von A, wenn σ 2 ein Eigenwert von 6-9 AA ist. Da A symmetrisch ist, ist AA = A 2. Wenn λ ein Eigenwert von A ist, ist λ 2 ein Eigenwert von A 2, also λ 2 = σ 2 für einen Singulärwert σ von A. Da Singulärwerte stets positiv sind und die Eigenwerte von A, da A positiv-definit ist, ebenfalls positiv sind, folgt, dass die Eigenwerte von A mit den Singulärwerten von A übereinstimmen. Daraus folgt die Behauptung. Dass man beim Rechnen mit Näherungen nie ein exaktes Ergebnis erwarten kann, eröffnet beim Entwurf von Algorithmen zusätzliche Freiheiten. Man kann nämlich auch Rechnungen erlauben, die selbst bei einer gedachten exakten Rechnung mit einem Fehler behaftet wären. Man unterscheidet dann zwischen dem Fehler, der durch die unvermeidliche Ungenauigkeit in den Daten verursacht wird (Datenfehler), und dem, der sich aus bewusst vorgenommenen Vereinfachungen während der Rechnung ergibt (Verfahrensfehler). Man wird bereit sein, einen Verfahrensfehler zu akzeptieren, der klein im Vergleich zum Datenfehler ist, zumal wenn man sich dadurch eine bessere Komplexität erkaufen kann. Typischerweise gehen numerische Algorithmen iterativ vor. Beginnend mit einer schlechten Näherung einer Lösung von Ax = b berechnen sie nach und nach immer bessere Näherungen, bis die gewünschte Genauigkeit erreicht ist. 29

292 Satz 53. (Richardson) Es bezeichne eine Norm auf R n sowie die dazugehörige Matrixnorm. Sei A R n n und b R n.. Wenn I n A < ist, ist A invertierbar. 2. Es sei x R n, und x, x 2,... R n seien definiert durch x k+ = x k + (b Ax k ) (k N). Ist A invertierbar, so gilt für den eindeutig bestimmten Vektor x R n mit Ax = b für alle k N. x x k I n A k x x Beweis.. Wäre A nicht invertierbar, dann gäbe es ein x mit Ax =. Dann wäre und das kann nicht sein. x = (I n A)x I n A x < x, }{{}}{{} < 2. Sei x = A b. Wir zeigen die Ungleichung durch Induktion nach k. Für k = ist die Ungleichung wegen I n A = erfüllt. Nehmen wir an, sie ist für ein k N erfüllt. Dann ist sie auch für k + erfüllt, denn x x k+ = x (x k + (b Ax k )) = x x k (Ax Ax k ) = (I n A)(x x k ) I n A x x k I n A I n A k x x = I n A k+ x x. Beispiel A , b , x = Wegen I 3 A erwarten wir, dass das Verfahren konvergiert. Für die Folge der Näherungen findet man: x ( , ,.875), x 2 (3.954,.63556,.39589), x 3 (4.635, ,.8386),. x (5.5986,.29579,.4798), 292

293 x 2 (5.656,.29269,.4829), x 3 (5.6899, , ),. x 2 (5.654,.28635, ), x 22 (5.659,.2864,.48554), x 23 (5.65,.28685, ),. x 3 (5.656,.28656, ), x 32 (5.656,.28655, ), x 33 (5.656,.28655, ),. Die Komplexität des Verfahrens ergibt sich aus der Anzahl der Iterationen multipliziert mit der Zahl der Operationen, die man für eine Matrix-Vektor-Multiplikation braucht. Das sind im allgemeinen O(n 2 ) Operationen, es können bei dünn besetzten oder strukturierten Matrizen aber auch deutlich weniger sein A , b , x = In diesem Fall gilt I n A >. Die Bedingung I n A < ist für die Konvergenz des Verfahrens hinreichend, aber nicht notwendig. In der Tat scheint das Verfahren in diesem Beispiel trotzdem zu konvergieren: x ( , ,.875) x 2 ( ,.55572,.34429) x 3 (3.6894,.428,.79939). x 3 (3.67,.44487,.84496) x 32 (3.67,.4449,.84496) x 33 (3.67,.44492,.84496). Der Grund ist, dass es eine andere Norm gibt, für die I n A < gilt. Satz 53 gilt für beliebige Matrixnormen, und die Iterationsvorschrift hängt nicht von der Wahl der Norm ab. Das Verfahren konvergiert also schon, wenn I n A < für irgendeine Norm gilt. Im vorliegenden Beispiel ist dies der Fall für die Matrixnorm, die zur Vektorraumnorm x := x x

294 gehört. Für diese Norm gilt nämlich I n A <. Man kann zeigen, dass es eine Norm mit I n A < genau dann gibt, wenn für alle Eigenwerte λ C von I n A gilt λ < A , b.3737, x = Da die Eigenwerte von I n A in der Nähe von.43877,.8644, liegen, gilt I n A > für jede Norm, und Satz 53 kann beim besten Willen keine Konvergenz garantieren. In solchen Fällen kann man versuchen, das gegebene Gleichungssystem Ax = b in ein anderes System umzuwandeln, für das das Verfahren konvergiert, zum Beispiel indem man ausnutzt, dass Ax = b P AQ Qx = P b für beliebige invertierbare Matrizen P, Q gilt. Man nennt solche Matrizen P, Q, für die I n P AQ < ist, Vorkonditionierer (engl. preconditioner) für das System. Natürlich kommen als Vorkonditionierer nur Matrizen P und Q in Frage, für die man P AQ in vernünftiger Zeit berechnen kann. Es ist z.b. wenig hilfreich P = I n und Q = A zu wählen, denn diese Wahl transformiert das gegebene System nicht in ein einfacheres, sondern auf sich selbst. Unter Umständen kann es schon helfen, P = τi n und Q = I n für eine geeignete Konstante τ R zu wählen. Im vorliegenden Beispiel konvergiert z.b. die Iterationsvorschrift x k+ = x k + 5 (b Ax k) gegen eine Lösung: x (.5724,.7474,.72727) x 2 (.24253,.74279,.26495) x 3 (.29354, ,.3436). x 3 (.3955,.99348, ) x 32 (.39552,.99345, ) x 33 (.39553,.99342, ). 4. Selbst wenn I n A < gilt und das Iterationsverfahren also nach Satz 53 konvergiert, kann es sinnvoll sein, einen Vorkonditionierer einzusetzen, und zwar mit dem Ziel, die Konvergenz zu beschleunigen. Man möchte, dass x x k q k x x für ein möglichst kleines q gilt. Wählt man für die Matrix A aus dem ersten Beispiel oben zum Beispiel den Parameter τ = 2, d.h. verwendet man die Iterationsvorschrift x k+ = x k + 2(b Ax k ), so erhält man eine bessere Konvergenz: x (5.765,.,.75) x 2 ( ,.38,.56636) x 3 (5.5942,.33527,.4568). x (5.656,.28655, ) x 2 (5.656,.28655, ) 294

295 x 3 (5.656,.28655, ). Satz 54. Es sei die Standardnorm des R n. Sei A R n n symmetrisch und positiv definit, λ min der kleinste und λ max der größte Eigenwert von A. Seien b R n, τ >, q = max{ τλ min, τλ max }. Es sei x R n beliebig, und x, x 2,... R n seien definiert durch x k+ = x k τ(b Ax k ) für k N. Für das eindeutig bestimmte x R n mit Ax = b gilt dann x x k q k x x für alle k N. Beweis. Es sei das Standardskalarprodukt auf R n. Nach Satz 5 hat A eine ONB aus Eigenvektoren. Sei {e,..., e n } eine solche Basis und seien λ,..., λ n die zugehörigen Eigenwerte. Dann gilt Ae i = λ i e i für i =,..., n und (I n τa)e i = ( τλ i )e i für i =,..., n. Somit sind die Vektoren e,..., e n auch Eigenvektoren von I n τa, und die zugehörigen Eigenwerte sind τλ,..., τλ n. Da A symmetrisch ist, ist auch I n τa symmetrisch. Deshalb folgt aus Satz 2 und Satz 5, dass I λa = max{ τλ,..., τλ n } = max{ τλ min, τλ max }. Damit folgt die Behauptung aus Satz 53 angewandt auf τa und τb anstelle von A und b. Um die Konvergenz des Iterationsverfahrens zu gewährleisten, wählt man τ zwischen und 2/λ max. Dann gilt 6-2 λ min λ max < τλ min < = τλ min < = 2 λ max λ max < τλ max < = τλ max < = q <. Die beste Konvergenz erhält man, wenn q möglichst klein ist. Offenbar entspricht das kleinstmögliche q dem Wert τ, bei dem 6-4 gilt, also τ = 2 λ min+λ max. τλ max = ( τλ max ) = τλ min = τλ min q τλ max τλ min Das zugehörige q ist dann τ 2 λ min + λ max λ min = λ min + λ max 2λ min λ min + λ max = λ max λ min λ max λ min + = κ(a) κ(a) +. Wie man sieht, ist eine umso bessere Konvergenz zu erwarten, je näher die Konditionszahl bei liegt. 295

296 48 Symbolische Algorithmen In Abgrenzung von numerischen Algorithmen spricht man bei Algorithmen, die auf Körper spezialisiert sind, für die sich jedes Element mit endlich viel Information codieren läßt, von symbolischen Algorithmen. Zu diesen Körpern gehören alle endlichen Körper und Q. Wenn K ein solcher Körper ist, dann auch der Körper K(X) der rationalen Funktionen über K (vgl. S. 37). Der Begriff symbolisch bezieht sich auf das X von K(X): Anders als numerische Algorithmen können symbolische Algorithmen nämlich insbesondere mit Matrizen umgehen, in denen Variablen vorkommen. Wenn ein Körper unendlich groß ist und alle Elemente eine endlich lange Darstellung haben, dann können diese Darstellungen keine beschränkte Länge haben, d.h. für jedes n N muss es ein Körperelement geben, dessen Darstellung mehr als n Speicherzellen belegt. Es ist bei solchen Körpern deshalb nicht adäquat, für die Komplexität eines Algorithmus einfach die Anzahl der Körperoperationen anzugeben. Man muss darüber hinaus berücksichtigen, dass eine Körperoperation um so länger dauert, je länger die Codierung der Elemente ist, die addiert oder multipliziert werden sollen. Insbesondere ist zu beachten, dass die Körperelemente im Verlauf einer Rechnung immer länger werden können. Beim Rechnen in endlichen Körpern besteht dieses Problem natürlich nicht, denn bei endlichen Körpern kann man für die Körperoperationen (zumindest prinzipiell) Wertetabellen abspeichern, so dass das Ergebnis jeder Operation mit dem gleichen Aufwand nachgeschlagen werden kann. Auch beim Rechnen mit Näherungen besteht das Problem nicht, weil man durch Rundung des Ergebnisses die Länge der Zahlen kurz halten kann: Vergleiche dazu eine exakte Rechnung in Q: } {{ } 36 Ziffern 6.99 }{{} 3 } {{} }{{} 6 Ziffern 6 Ziffern 6 Ziffern }{{} 36 Ziffern = }{{} 72 Ziffern Die Zahl rechts ist etwa so lang wie die beiden Zahlen links zusammen. Dasselbe Phänomen beobachtet man auch beim Rechnen mit rationalen Funktionen, z.b. in Z 5 (X): 4X 5 +2X 4 +4X 3 +X 2 +X+2 X 4 +2X 3 +X 2 +X+3 } {{ } Terme + 2X8 +2X 7 +4X 5 +2X 3 +3X X 8 +3X 7 +4X 5 +3X 4 +X 2 +4 }{{} Terme = 4X2 +3X +2X 8 +4X 7 +2X 5 +4X 4 +X 2 +2X+4 X +3X +X 9 +X 8 +4X 6 +2X 4 +4X 2 +4X+ } {{ } 8 Terme Die Behandlung von rationalen Zahlen (gemessen z.b. in der Gesamtzahl der Ziffern in Zähler und Nenner) und rationalen Funktionen über einem Körper (gemessen in der Summe der Polynomgrade von Zähler und Nenner) ist weitgehend analog. Der Fall der rationalen Funktionen ist dabei etwas einfacher. Ignoriert man in diesem Fall, dass auch die Elemente des Grundkörpers K möglicherweise anwachsen können, so kann man die Komplexität eines Problems über K(X) unter Berücksichtigung des Wachstums der Ausdrücke dadurch abschätzen, dass man statt der Zahl der Operationen in K(X) die Zahl der Operationen im Grundkörper K bestimmt. Der folgende Satz illustriert, dass bei Rechnungen in der linearen Algebra ein gewisses Wachstum von Ausdrücken gar nicht zu vermeiden ist, weil schon die Ausdrücke im Ergebnis im allgemeinen größer sind als die in der Eingabe. Satz 55.. Sei A = ((a i,j )) n i,j= K[X]n n mit deg(a i,j ) d für alle i, j {,..., n}. Dann gilt det A K[X] und deg(det A) nd. 296.

297 2. Sei A = ((a i,j )) n i,j= Zn n mit a i,j M für alle i, j {,..., n}. Dann gilt det(a) n!m n. Beweis. Ferner gilt die Hadamardsche Ungleichung: n det(a) (a i,,..., a i,n ) n n/2 M n i= wobei die Standardnorm bezeichnet.. Für beliebige Polynome p, q K[X] gilt deg(pq) = deg(p) + deg(q) und deg(p + q) max{deg(p), deg(q)}. Deshalb folgt die Abschätzung unmittelbar aus Def Die erste Abschätzung folgt ebenfalls direkt aus der Definition, denn det(a) = n sgn(π) a i,π(i) n a i,π(i) M n n!m n. π S n i= i= π S n Für die zweite Abschätzung schreibe a i = (a i,,..., a i,n ) für i =,..., n. Die Vektoren b,..., b n seien definiert durch b = a und b i = a i a i b i j<i b i b i b i, wobei mit das Standardskalarprodukt gemeint ist. Dann ist {b,..., b n } eine Orthogonalbasis von R n, es gibt eine Matrix. M = Qn n π S n mit (a,..., a n ) = M(b,..., b n ), und es gilt b i a i für alle i. Aus all dem folgt 6- det A = det A det A = det(b,..., b n )det }{{ M } det }{{ M} det(b,..., b n ) = = = det ( (b,..., b n )(b,..., b n ) ) = det diag( b b,..., b n b n ) = n n n b i b i = b i a i. i= i= Der rechte Teil der Ungleichung folgt aus a i = i= a 2 i, + + a2 i,n nm 2 = n /2 M. Wir betrachten als nächstes das Problem, die Lösung eines linearen Gleichungssystems Ax = b für gegebene A K[X] n n und b K[X] n zu bestimmen. Zur Vereinfachung wollen wir annehmen, dass A invertierbar ist, und dass es darüber hinaus im Verlauf des Gauß-Algorithmus nicht nötig ist, jemals zwei Zeilen zu vertauschen. Die zweite Annahme ist nicht unbedingt nötig, aber durch sie wird die Formulierung von Sätzen, Beweisen und Algorithmen erheblich vereinfacht. Zum Beispiel vereinfacht sich der Algorithmus zur Berechnung einer Treppenform wie folgt. 297

298 Algorithmus 9. Eingabe: eine Matrix A K[X] n m, für die die Teilmatrix bestehend aus den ersten n Spalten die oben genannten Eigenschaften hat Ausgabe: eine Treppenform für A für k =,..., n: 2 dividiere die k-te Zeile durch A[k, k]. 3 für i = k +,..., n: 4 addiere das ( A[i, k])-fache der k-ten Zeile zur i-ten Zeile 5 gib A als Ergebnis zurück. Die Annahmen über A gewährleisten, dass A[k, k] in Schritt 2 nie Null ist. Wir nehmen an, dass die Einträge von A und b Polynome sind, betrachten sie aber als Elemente von K(X) n n bzw. K(X) n, d.h. Divisionen sind erlaubt und wir sprechen über das klassische Problem der linearen Algebra und nicht etwa über die allgemeinere Modul-Variante. Trotzdem kann es sinnvoll sein, während der Rechnung die Einführung von Nennern zu vermeiden. Zum einen erspart man sich dadurch das Kürzen gemeinsamer Faktoren in Zähler und Nenner, für das jedesmal die Berechnung eines größten gemeinsamen Teilers nötig ist. Zum anderen ist es bei einer Komplexitätsabschätzung schwer vorherzusehen, wie groß diese gemeinsamen Teiler sein werden, und das erschwert die Abschätzung der Größe der Ausdrücke. Betrachten wir deshalb folgende Variante des Gauß-Algorithmus, bei der auf Divisionen verzichtet wird: Algorithmus 2. Eingabe: eine Matrix A K[X] n m, für die die Teilmatrix bestehend aus den ersten n Spalten die oben genannten Eigenschaften hat Ausgabe: Eine Treppenform von A, wobei auf den Treppenstufen statt auch andere von Null verschiedene Einträge erlaubt sind. für k =,..., n: 2 für i = k +,..., n: 3 für j = k,..., m: 4 A[i, j] = A[k, k]a[i, j] A[i, k]a[k, j] 5 gib A als Ergebnis zurück. Beispiel. a, a,2 a,3 a,4 a 2, a 2, a 2,2 a 2,3 a 2,4 a, + a 3, a 3,2 a 3,3 a 3,4 a, a 3, + a, a,2 a,3 a,4 b 2,2 b 2,3 b 2,4 b 3,2 b 3,3 b 3,4 a, a,2 a,3 a,4 b 2,2 b 2,3 b 2,4 c 3,3 c 3,4 b 2,2 b 3, Bei jedem Aufruf von Schritt 4 wird ein Eintrag A[i, j] durch einen Eintrag ersetzt, dessen Grad potentiell doppelt so hoch ist. Wenn die Matrix A zu Beginn Polynome vom Grad d enthält, dann enthält sie am Ende Polynome vom Grad 2 n d. Das ist viel. Die Funktion n 2 n wächst schneller als jedes Polynom, d.h. es gibt kein p N, so dass 2 n = O(n p ) ist. Man spricht von einer exponentiellen Komplexität. Algorithmen mit so hoher Komplexität sind meistens nicht praktikabel (Beispiel: wenn 298

299 man pro Operation eine Nanosekunde kalkuliert, braucht man für 2 75 = Operationen mehr als eine Million Jahre). Bei der folgenden Variante bleiben die Einträge auch polynomiell, wie wir in Satz 56 zeigen werden, und die Grade wachsen so viel langsamer, dass sich insgesamt eine polynomielle Komplexität ergibt (Satz 57). Algorithmus 2. (Bareiss) Eingabe und Ausgabe wie vorher. setze A[, ] = 2 für k =,..., n: 3 für i = k +,..., n: 4 für j = k,..., m: 5 A[i, j] = (A[k, k]a[i, j] A[i, k]a[k, j])/a[k, k ] 6 gib A als Ergebnis zurück. Satz 56. (Sylvester) Sei A = ((a i,j )) n,m i,j= K[X]n m so, dass det((a i,j )) k i,j= für alle k =,..., n gilt. Sei a () i,j = a i,j für alle i, j, und sei a (k) i,j für k =,..., n der Eintrag der Matrix A in Algorithmus 2 am Ende der k-ten Ausführung der Schritte 3 5 in Position (i, j). Dann gilt: a, a,k a,j a (k) i,j =... K[X] a k, a k,k a k,j a i, a i,k a i,j für alle k =,..., n und alle i, j > k. 6- Beweis. Für k =,..., n und alle i, j > k sei b (k) i,j die Determinante auf der rechten Seite. 6- Zu zeigen: a (k) i,j = b(k) i,j für alle i, j, k. Induktion nach k. Für k = ist nichts zu zeigen und für k = lässt sich die Aussage direkt aus dem Algorithmus ablesen. Wir zeigen: wenn k {2,..., n} so ist, dass die Behauptung für k und k 2 gilt, dann gilt sie auch für k. Dazu genügt es zu zeigen, dass für alle i, j > k gilt b (k) i,j = (b(k ) k,k b (k ) i,j b (k ) i,k b (k ) k,j )/b (k 2) k,k. Schreibe dazu a, a,k a,j ( ) M k;i,j =... a k, a k,k a k,j = Ak B k;j C k;i D k;i,j a i, a i,k a i,j mit a, a,k A k =.. a k, a k,k ( ak, a C k;i = k,k a i, a i,k K[X] (k ) (k ), B k;j = ) K[X] 2 (k ), D k;i,j = 299 a,k a,j. a k,k ( ak,k a k,j a i,k a i,j. a k,j K[X] (k ) 2 ) K[X] 2 2.

300 Dann gilt A k = M k 2;k,k, und daher det(a k ) = b (k 2) k,k nach Induktionsvoraussetzung. Nach Voraussetzung des Satzes ist A k invertierbar. Mit Hilfe von Satz 48 überzeugt man sich, dass gilt: ( ) ( ) ( Ak B M k;i,j = k;j Ak Ik A = k B k;j C k;i D k;i,j C k;i I 2 D k;i,j C k;i A k Daraus folgt unter Verwendung von Satz 85 det(m k;i,j ) = det(a k ) det(d k;i,j C k;i A k B k;j) = det ( det(a k )(D k;i,j C k;i A k B k;j) ) / det(a k ). B k;j ). Die Behauptung folgt also, wenn wir zeigen können, dass det(a k )(D k;i,j C k;i A k B k;j) = ( a (k ) k,k a (k ) i,k a (k ) k,j a (k ) i,j ) 6-6 gilt. Wir zeigen das für den Eintrag links unten. Das Argument für die drei anderen Einträge geht analog. Ist c die zweite Zeile von C k;i und b die erste Spalte von B k;j, so ist also zu zeigen det(a k )a i,k det(a k )ca k b = a(k ) i,k. 6-6 Für x = (x,..., x k ) := A k b gilt nach Satz 34 (Cramers Regel), dass x l = det(a(l) det(a k ) für l =,..., k, wobei A (l) k für die Matrix steht, die aus A k entsteht, wenn man die l-te Spalte durch b ersetzt. Durch k l Vertauschungen benachbarter Spalten lässt sich A (l) k in eine Matrix A [l] k überführen, bei der b ganz rechts steht. Wegen Satz 29 gilt det(a (l) k ) = ( )k l det(a [l] k ). Unter Verwendung von Satz 33 (Laplace-Entwicklung) und der Induktionshypothese erhält man dann k ) det(a k )a i,k det(a k )ca b k k = det(a k )a i,k det(a k ) l= a i,l ( ) k l det(a [l] k ) det A k k = ( ) k+l a i,l det(a [l] k ) + ( )k+k a i,k det(a k ) l= = det(m k ;i,k ) = a (k ) i,k, wie behauptet. Satz 57. Sei A = ((a i,j )) n,m i,j= K[X]n m so, dass det((a i,j )) k i,j= für alle k =,..., n gilt, und sei d N so, dass deg(a i,j ) d für alle i, j. Dann genügen O(d 2 n 4 m) Operationen in K, um eine Treppenform von A zu berechnen. 3

301 Beweis. Wir orientieren uns an Algorithmus 2. Beim k-ten Durchlauf der Schleife aus Schritt 2 werden in Schritt 5 nach Satz 56 und Satz 55 zweimal zwei Polynome vom Grad höchstens kd multipliziert, deren Differenz gebildet und durch ein Polynom vom Grad höchstens (k )d geteilt. Die beiden Multiplikationen kosten höchstens 2(kd + ) 2 Operationen in K, die Subtraktion höchstens 2kd + weitere, und die Division noch einmal höchstens 2(kd (k )d + )((k )d + 2) = 2(d + )(kd d + 2). Die Anzahl der zu verarbeitenden Einträge im k-ten Durchlauf ist (n k)(m k). Für die Gesamtkomplexität ergibt sich also n ( )( ) ( n k m k 2(kd + ) 2 + 2kd + + 2(d + )(kd d + 2) ) }{{}}{{} k= nm 4(kd+2) 2 n 4nm (kd + 2) 2 = 2 3 mn2 (2d 2 n 2 + 3d 2 n + d 2 + 2dn + 2d + 24) = O(d 2 n 4 m). k= Von der verwendeten Summationsformel überzeugt man sich durch Induktion (oder mit Hilfe von Computeralgebra). Eine völlig andere Technik zur Eindämmung des Wachstums von Ausdrücken ist das Rechnen mit homomorphen Bildern. Die Idee ist dabei, eine Rechnung über K(X) auf eine oder mehrere Rechnungen in K zurückzuführen und aus den Ergebnissen der Rechnungen über dem kleineren Körper das Ergebnis der Rechnung über dem großen Körper zu rekonstruieren. Betrachten wir als Beispiel das Problem, zu einer gegebenen Matrix A K[X] n n die Determinante zu berechnen. Per Definition entsteht die Determinante von A durch Additionen und Multiplikationen der Matrixeinträge. Da für Polynome p, q K[X] und Körperelemente u K gilt (p + q)(u) = p(u) + q(u) und (pq)(u) = p(u)q(u), folgt det(a(u)) = det(a)(u) für alle u K, wobei A(u) K n n für die Matrix steht, die man erhält, wenn man jeden Matrixeintrag p K[X] von A durch p(u) K erstetzt, und det(a)(u) K für die Auswertung des Polynoms det(a) an u K. Es spielt also für das Ergebnis keine Rolle, ob man zuerst die polynomiellen Einträge von A bei u auswertet und dann die Determinante berechnet, oder zuerst die Determinante als Polynom berechnet und danach erst u einsetzt. Für die Komplexität macht das aber durchaus einen Unterschied, denn bei der Berechnung von det(a(u)) ist kein X mehr im Spiel, so dass es keine anwachsenden Ausdrücke mehr gibt. Für eine Matrix A K[X] n n mit Einträgen vom Grad höchstens d kann man deshalb wie folgt vorgehen: wähle nd + paarweise verschiedene Körperelemente u,..., u nd K berechne det(a(u i )) für i =,..., nd 3 rekonstruiere det(a) aus diesen Daten und gib das Ergebnis zurück. K[X] n n auswerten K n n K n n K n n K n n K n n K n n K n n det det det det det det det K K K K K K K interpolieren K[X] 3

302 Die Berechnung jeder Matrix A(u i ) kostet n 2 mal O(d) Operationen, also insgesamt O(d 2 n 3 ). Die Berechnung jeder Determinante det(a(u i )) kostet dann nur O(n 3 ) Operationen, also ingesamt O(dn 4 ). Die Berechnung des Interpolationspolynoms kostet nur O(d 2 n 2 ) Operationen. Insgesamt braucht der Algorithmus also O(d 2 n 3 + dn 4 ) Operationen. Man hat zusätzlich den Vorteil, dass die Berechnung der det(a(u i )) für verschiedene u i unabhängig voneinander parallel auf verschiedenen Rechnern durchgeführt werden kann. Wenn man ein Gleichungssystem Ax = b für gegebene A K[X] n n und b K n mit det(a) zu lösen hat, werden die Koeffizienten des Lösungsvektores x im allgemeinen nicht polynomiell sein, sondern rationale Funktionen mit nichttrivialen Nennern. Wir können deshalb diese Koeffizienten nicht einfach durch Interpolation berechnen. Aus Satz 34 wissen wir allerdings, dass det(a)x ein polynomieller Vektor ist. Man kann deshalb wie folgt vorgehen. Algorithmus 22. Eingabe: A K[X] n n mit det(a), und b K[X] n. Der Maximalgrad unter den Einträgen von A und b sei d N. Ausgabe: x K(X) n mit Ax = b. berechne det(a) K[X] wie oben beschrieben 2 wähle u,..., u dn K paarweise verschieden, so dass det(a)(u i ) für alle i. 3 für i =,..., dn: 4 berechne die Lösung x (i) = (x (i),..., x(i) n ) K n von A(u i ) x (i) = b(u i ) 5 multipliziere alle Koeffizienten von x (i) mit det(a)(u i ) 6 für j =,..., n: 7 berechne x j K[X] mit x j (u i ) = x (i) für i =,..., dn und deg(x j ) dn. x x n det(a) j 8 gib ( det(a),..., ) als Ergebnis zurück. In Schritt 2 werden Nullstellen von det(a) als Evaluationspunkte ausgeschlossen, weil für u K mit det(a)(u) = das System A(u)x = b(u) mehrere Lösungen hat. Nur eine dieser Lösungen ist die Auswertung des Lösungsvektors von Ax = b bei u, und es ist nicht klar, wie man diesen von den anderen Elementen der Lösungsmenge unterscheiden soll. ( ) ( ) 3X + 5 2X 7 X Beispiel. Sei A = Q[X] 8X + 3 4X und b =. 2X + Gesucht ist x = (x, x 2 ) Q(X) 2, so dass Ax = b. Zunächst berechnen wir die Determinante von A: det A() = = 26 det A() = = 95 = det(a) = X 4X 2. det A(2) = = 56 Als nächstes berechnen wir Lösungen für spezielle Werte anstelle von X: ( ) ( ) 5 7 x() = = x() = ( 3 3, 4 3 ) 3 ( ) x() = ( 3 ) 32 = x() = ( 3 9, )

303 ( ) 3 x(2) = 9 9 ( ) 5 = x(2) = ( 2 3, 3 3 ) Multiplikation mit den Werten der Determinante bei,, 2 ergibt ( ) ( ) ( ) (det(a)x)() =, (det(a)x)() =, (det(a)x)(2) = Interpolation liefert und schließlich ( ) 6 + 9X det(a)x = 8 + 8X 2X 2 ( (6 + 9X)/( X 4X x = 2 ) ) (8 + 8X 2X 2 )/( X 4X 2. ) 33

304 Teil IX Anwendungen 34

305 49 Eliminationstheorie Jedes Polynom p R[X] hat nur endlich viele Nullstellen. Die Zahl der Nullstellen ist durch den Grad von p beschränkt. Polynome in mehreren Variablen können aber durchaus unendlich viele Nullstellen haben. Zum Beispiel besteht die Nullstellenmenge des Polynoms X 2 + Y 2 R[X, Y ] aus allen Punkten auf dem Einheitskreis. Das sind unendlich viele. Allgemein kann man sich die Nullstellenmenge eines Polynoms p R[X, Y ] als eine Kurve im R 2 vorstellen, die Nullstellenmenge eines Polynoms in R[X, Y, Z] als eine (i.a. gekrümmte) Fläche im R 3, und so weiter. Beispiel. Links: die Kurve bestehend aus allen Punkten (x, y) R 2 mit (x y)(x+y) =. Mitte: die Kurve bestehend aus allen Punkten (x, y) R 2 mit x 2 + y 2 2 =. Rechts: die Kurve bestehend aus allen Punkten (x, y) R 2 mit (y ) 2 x 2 (x + ) =. y y y x x x Es seien nun zwei Polynome p, q R[X, Y ] gegeben. Wir wollen die Schnittpunkte der zugehörigen Kurven bestimmen, also die Punkte (x, y) R 2, für die sowohl p(x, y) = als auch q(x, y) = gilt. Für zwei Polynome p, q R[X] wissen wir aus Abschnitt 25, dass die gemeinsamen Nullstellen von p, q genau die Nullstellen des größten gemeinsamen Teilers gcd(p, q) R[X] sind. Das gilt für multivariate Polynome im allgemeinen so nicht. Man kann die bivariaten Polynome p, q R[X, Y ] auf univariate Polynome zurückführen, indem man für eine der beiden Variablen einen Wert α einsetzt, z. B. für X. Die Nullstellen des größten gemeinsamen Teilers der beiden resultierenden Polynome in R[Y ] sind dann genau die Zahlen β R, so dass (α, β) R 2 ein Schnittpunkt der beiden gegebenen Kurven ist. Mit anderen Worten: Wenn man eine Koordinate eines Schnittpunkts kennt, kann man die andere leicht berechnen. Beispiel. Betrachte die beiden Kurven, die durch die Polynome p = X 2 + Y 2 2 und q = (Y ) 2 X 2 (X + ) definiert sind. Ersetzt man X in beiden Polynomen durch α =, so erhält man die beiden Polynome Y 2 und (Y ) 2, deren größter gemeinsame Teiler Y ist. Das Polynom Y hat nur die Nullstelle β =, und damit ist (α, β) = (, ) der einzige Schnittpunkt der beiden Kurven, deren erste Koordinate ist. Ersetzt man X in p und q durch α 2 = +, so erhält man Y 2 und (Y ) 2 2, und da diese beiden Polynome teilerfremd sind, gibt es keinen Schnittpunkt auf der vertikalen Geraden durch (, ). y x α α 2 35

306 Es ist unwahrscheinlich, dass man eine Koordinate der Schnittpunkte durch Raten findet. Für fast jede Wahl von α wird man zwei teilerfremde univariate Polynome bekommen. Es stellt sich also die Frage, wie man zu gegebenen bivariaten Polynomen p, q R[X, Y ] die Zahlen α R berechnen kann, für die bei Ersetzung von X durch α zwei univariate Polynome in R[Y ] mit einem nicht-trivialen größten gemeinsamen Teiler entstehen. Zu diesem Zweck erinnere man sich zunächst daran, dass nach Satz 72 der größte gemeinsame Teiler g zweier Polynome a, b R[Y ] als R[Y ]-Linearkombination geschrieben werden kann: g = sa + tb für gewisse s, t R[Y ]. Aus dem Beweis von Satz 72 folgt auch, dass man immer geeignete s, t mit deg(s) < deg(b) deg(g) deg(b) und deg(t) < deg(a) deg(g) deg(a) finden kann. Mit diesem Wissen kann man g, s, t statt mit dem erweiterten euklidischen Algorithmus auch direkt mit linearer Algebra berechnen. Denn g = gcd(a, b) ist dann einfach das Polynom von kleinstmöglichem Grad, das eine R-Linearkombination der Polynome a, Y a,..., Y deg(b) a, b, Y b,..., Y deg(a) b ist. Schreibt man deren Koeffizientenvektoren in die Zeilen einer Matrix, so muss der Koeffizientenvektor von g in der letzten von Null verschiedenen Zeile jeder Treppenform auftauchen. Beispiel. Betrachte die Polynome a = 2Y 5 + 3Y 4 + 3Y 3 + 4Y 2 5Y +, b = 2Y 4 + Y 3 2Y 2 + 4Y. Wir erwarten, dass sich g = gcd(a, b) als R-Linearkombination von a, Y a, Y 2 a, Y 3 a, b, Y b, Y 2 b, Y 3 b, Y 4 b schreiben lässt. Wir schreiben die Koeffizienten dieser Polynome in die Zeilen einer Matrix und berechnen eine Treppenform. Beachte, dass die Spalten nach absteigenden Potenzen von Y angeordnet werden müssen. Aus Y 8 Y 7 Y 6 Y 4 Y 3 Y 2 Y Y 3 a Y 2 a Y a a Y 4 b Y 3 b Y 2 b Y b b folgt g = Y Y 2. Y 5 Die Matrix in dieser Rechnung hat deg(a)+deg(b) Zeilen und Spalten. Dass a und b einen nicht-trivialen größten gemeinsamen Teiler haben, bedeutet, dass der Rang der Matrix kleiner als deg(a) + deg(b) ist, und dies bedeutet wiederum, dass die Determinate der Matrix Null ist. Das motiviert folgende Definition. Definition 9. Seien a = a + +a n X n K[X], b = b + +b m X m K[X] mit a n, b m. Dann heißt a n a m Zeilen Syl(a, b) = a n a b m b K (n+m) (n+m) n Zeilen b m b 36

307 die Sylvester-Matrix von a und b, und res(a, b) = det Syl(a, b) heißt die Resultante (engl. resultant) von a und b. Satz 58. Für zwei Polynome a, b R[X] gilt gcd(a, b) = res(a, b). Beweis. Sei n = deg(a), m = deg(b). Wir zeigen: wenn gcd(a, b) = ist, dann hat Syl(a, b) vollen Rang. Betrachte den Untervektorraum V = a, Xa,..., X m a, b, Xb,..., X n b K[X] von K[X]. Nach Annahme gcd(a, b) = folgt aus Satz 72 (und den Gradschranken, die der Beweis von Satz 72 ebenfalls liefert), dass gilt V. Wir zeigen X i V für alle i =,..., n+m. Dazu seien s, t K[X] mit deg(s) < m, deg(t) < n und = sa + tb. Für i {,..., n + m } gilt dann X i = X i sa + X i tb = ( quo(x i s, b)b + rem(x i s, b) ) a + ( quo(x i t, a)a + rem(x i t, a) ) b = rem(x i s, b)a + rem(x i t, a)b + quo(x i sa, ba)ba + quo(x i tb, ab)ab = rem(x i s, b)a + rem(x i t, a)b + quo(x i ( tb) + X i tb, ab) ab }{{}}{{} V =, da i < n + m = deg(ab) Wenn res(a, b) ist, ist Syl(a, b) invertierbar. Dann ist die Treppennormalform von Syl(a, b) die Einheitsmatrix I n+m. Darum lässt sich jedes Monom X i (i =,..., n + m ) als Linearkombination von a, Xa,..., X m a, b, Xb,..., X n b darstellen, insbesondere das Monom = X. Damit ist gezeigt, dass es Polynome s, t K[X] gibt mit = sa + tb. Jeder gemeinsame Teiler d K[X] von a und b ist dann auch ein Teiler von. Daraus folgt gcd(a, b) =. Mit Hilfe der Resultante können wir nicht nur feststellen, ob zwei Polynome einen gemeinsamen Teiler haben, sondern auch wann dies der Fall ist. Wenn nämlich p, q R[X, Y ] bivariate Polynome sind, die wir als Polynome in Y mit Koeffizienten in R[X] auffassen, dann ist die Resultante von p, q (bezüglich Y ) ein Polynom in X. Die Nullstellen dieses Polynoms sind genau die X-Werte, für die p und q als Polynome in der verbleibenden Variablen Y einen gemeinsamen Teiler haben. Bei Resultanten von Polynomen in mehreren Variablen verwendet man statt res(p, q) auch die Notation res X (p, q), die im Index die Variable angibt, bezüglich der die Resultante gebildet wird. Wenn man p = q = als (i.a. nicht-lineares) Gleichungssystem in zwei Variablen X, Y auffasst, dann kann man mit der Resultante eine Variable aus dem Gleichungssytem eliminieren. Das Ergebnis ist eine neue Gleichung, die nur die andere Variable enthält. Für jede Lösung (α, β) des Gleichungssystems p = q = ist α eine Nullstelle der Resultante bzgl. Y und β eine Nullstelle bzgl. X. Die Umkehrung gilt allerdings nicht: im allgemeinen hat die Resultante auch Nullstellen, die nicht der Koordinate einer Lösung des ursprünglichen Gleichungssystems entsprechen. Modernere Eliminationsverfahren, von denen Sie in weiterführenden Lehrveranstaltungen hören werden (insbesondere die sogenannten Gröbnerbasen) haben dieses Problem nicht. Beispiel.. Für p = X 2 + Y 2 2, q = (Y ) 2 X 2 (X + ) R[X, Y ] = R[X][Y ] res(p, q) = ( + X)( X 7X 2 + X 3 + 3X 4 + X 5 ). 37

308 Dieses Polynom hat vier reelle Nullstellen und zwei komplexe. Die Nullstelle führt zu dem Schnittpunkt (, ), den wir bereits kennen. Die drei weiteren Schnittpunkte sind (.45962,.33763), ( ,.376), (.99,.76273). 2. Man kann mit der Resultante auch die Punkte finden, an denen eine Kurve sich selbst schneidet. Solche Punkte zeichnen sich dadurch aus, dass die univariaten Polynome, die man erhält, wenn man eine der Koordinaten einsetzt, bei der anderen Koordinate eine mehrfache Nullstelle haben. Die mehrfachen Nullstellen eines Polynoms p R[Y ] sind genau die gemeinsamen Nullstellen von p und der Ableitung p. Die möglichen X- d Koordinaten der Selbstüberschneidungspunkte sind also Nullstellen von res Y (p, dy p) d R[X]. Man nennt disc Y (p) := res Y (p, dy p) die Diskriminante des Polynoms p. Beispiel: Für p = Y 2 X 2 (X + ) ist disc Y (p) = 4X 2 (X + ). Die Nullstellen sind und. Für diese Werte von X wird p zu Y 2, die doppelte Nullstelle ist also. Demnach finden wir die beiden speziellen Punkte (, ) und (, ). Letzterer ist ein Punkt, an dem die Kurve sich selbst schneidet. Der Punkt (, ) ist dagegen ein Punkt, an dem die Kurve eine vertikale Tangente hat. Auch diese sogenannten Verzweigungspunkte (engl. branch point) findet man mit Hilfe der Diskriminante Zur Erinnerung: eine Zahl α C heißt algebraisch, wenn es ein Polynom p Q[X] \ {} gibt, das α als Nullstelle hat. Mit Hilfe der Resultante lässt sich einsehen, dass die Summe und das Produkt zweier algebraischer Zahlen wieder algebraische Zahlen sind. Sind nämlich α, β C algebraisch und sind p, q Q[X] \ {} so, dass p(α) = q(β) =, dann ist α+β eine Nullstelle von res Y (p(y ), q(x Y )) Q[X] und αβ ist eine Nullstelle von res Y (p(y ), Y deg q q(x/y )) Q[X]. Beispiel: 2 ist eine Nullstelle von p = X 2 2 und 3 ist eine Nullstelle von q = X 2 3. Die Summe ist eine Nullstelle des Polynoms res Y (Y 2 2, (X Y ) 2 3) = X 4 X 2 +. Die anderen drei Nullstellen dieses Polynoms sind 2 3, 2+ 3 und 2 3. Das Produkt 2 3 ist eine Nullstelle von res Y (Y 2 2, Y 2 ((X/Y ) 2 3)) = (X 2 6) 2. Um eine Kurve im dreidimensionalen Raum zu beschreiben, ist ein einziges Polynom nicht genug, denn die Nullstellenmenge eines Polynoms p R[X, Y, Z] in drei Variablen ist im allgemeinen eine Fläche. Man kann Kurven im R 3 aber unter Umständen beschreiben als die Schnittmenge von zwei oder mehr solcher Flächen. Zu einer gegebenen Kurve C R 3 betrachtet man die Menge I aller Polynome p R[X, Y, Z], so dass p(x, y, z) = für alle (x, y, z) C gilt. Diese Menge I ist ein Ideal des Rings R[X, Y, Z], denn mit p(x, y, z) = gilt auch (rp)(x, y, z) = für jedes r R[X, Y, Z], und mit p(x, y, z) = q(x, y, z) = gilt auch (p + q)(x, y, z) =. Wir können die Kurve C also durch ein Erzeugendensystem des Ideals I kodieren. Einem Erzeugendensystem für Ideal I R[X, Y, Z], das eine Kurve C R 3 beschreibt, sieht man nicht direkt an, wo im Raum die Kurve C sich befindet. Um sich einen Überblick zu verschaffen, kann man sich fragen, welche ebenen Kurven man erhält, wenn man C orthogonal auf eine der drei Koordinatenflächen projiziert. Diese Kurven werden durch die Polynome beschrieben, die in I liegen und nur die Variablen enthalten, die zur jeweiligen Koordinatenfläche gehören. Die Polynome I R[X, Y ] beschreiben zum Beispiel die Projektion von C auf die x/y-ebene. Beispiel. Das Ideal I = Y 2 XZ, X 2 Y Z 2, X 3 Y Z R[X, Y, Z] beschreibt die unten dargestellte Kurve im R 3. Gleichungen für die Kurven auf den Projektionsflächen bekommt man durch Berechnung von Resultanten, z.b. ist res Z (Y 2 XZ, X 3 Y Z) = Y 3 X 4. 38

309 y x z 5 Hauptachsentransformation Beispiel.. Die Nullstellenmenge des bivariaten Polynoms (X/7) 2 + (Y/3) 2 R[X, Y ] ist eine Ellipse. Die größte Ausdehnung hat diese Ellipse mit 4 Längeneinheiten entlang der horizontalen Achse. Die geringste Ausdehnung hat sie mit 6 Längeneinheiten entlang der vertikalen Achse. Man nennt diese beiden Achsen mit der größten bzw. niedrigsten Ausdehnung die Hauptachsen der Ellipse. y x 2. Auch die Nullstellenmenge des Polynoms p = X XY Y 2 R[X, Y ] ist eine Ellipse. Wir wollen ihre Hauptachsen bestimmen. Im vorherigen Beispiel waren die Hauptachsen leicht aus dem Polynom abzulesen, weil es keinen gemischten Term XY gab. Die Idee ist deshalb, ein Koordinatensystem zu suchen, bezüglich dessen die 6-22 jetzige Ellipse eine Gleichung der Form (X/a) 2 + (Y/b) 2 hat. Dabei soll der Koordinatenwechsel die Ellipse aber nicht verzerren. Wir brauchen also eine Isometrie. Dazu schreiben wir das Polynom p in der Form p = ( ) ( 3 X Y ) } {{ } =A ( ) X. Y Die Matrix A ist symmetrisch und hat deshalb nach Satz 5 eine ONB aus Eigenvektoren. Wir haben die Zerlegung ( ) ( A = ) ( )

310 ( ) ( ) 3 Daraus folgt, dass die beiden Hauptachsen der Ellipse den Richtungen und 3 entsprechen. Die größte Ausdehnung der Ellipse ist (entlang der ersten Hauptachse), und die kleinste ist 6 Einheiten (entlang der zweiten Hauptachse). y x 3. Bei der Nullstellenmenge des Polynoms p = X 2 XY 5X + 2Y 2 + 6Y + 7 R[X, Y ] handelt es sich um eine Ellipse, deren Zentrum nicht im Ursprung liegt. Um das Zentrum zu bestimmen, ersetzt man X und Y durch X + u und Y + v, wobei u, v R so gewählt sind, dass ein Polynom der Form ax 2 +bxy +cy 2 +d entsteht. Im vorliegenden Beispiel ergibt sich X 2 XY + 2Y 2 + (2u v 5)X + (6 u + 4v)Y + u 2 uv 5u + 2v 2 + 6v + 7 =. Die geeignete Wahl für u, v erhält man durch Lösen des linearen Gleichungssystems 2u v 5 = 6 u + 4v =. Demnach liegt das Zentrum im Punkt (u, v) = (2, ). Durch Multiplikation mit einer geeigneten Konstanten bringt man die Gleichung als nächstes auf die Form ax 2 + bxy + cy 2. Danach kann man wie im vorigen Beispiel verfahren, um die beiden Hauptachsen zu bestimmen. Allgemein bezeichnet man die Nullstellenmenge eines Polynoms p = ax 2 +bxy +cy 2 +dx +ey +f R[X, Y ] mit a, b, c, d, e, f R als Kegelschnitt (engl. conic). Kegelschnitte sind genau die Kurven, die entstehen, wenn man einen (Doppel-)Kegel mit einer Ebene schneidet. Neben Ellipsen kommen als Kegelschnitte noch einige andere Arten von Kurven vor, insbesondere Hyperbeln (engl. hyperbola) und Parabeln (engl. parabola). Eine Hyperbel liegt vor, wenn sich die Gleichung durch eine geeigente Verschiebung und Rotation auf die Form ax 2 by 2 = für a, b > bringen lässt. Die Gleichung für eine Parabel hat nach geeigenter Verschiebung und Rotation die Form ax 2 2Y =. Die nötigen Rechnungen sind jeweils ähnlich wie oben für den Fall der Ellipse beschrieben. Ellipse Hyperbel Parabel 3

311 Neben Ellipsen, Parabeln und Hyperbeln gibt noch einige degenerierte Fälle, z.b. entspricht X 2 Y 2 zwei gekeuzten Geraden, X 2 zwei parallelen Geraden, X 2 + Y 2 einem einzelnen Punkt, und X 2 + Y 2 + der leeren Menge. Kegelschnitte werden seit dem Altertum untersucht. Nach Kepler treten sie zum Beispiel in der Himmelsmechanik als Bahnen von Himmelskörpern auf. Die Nullstellenmenge eines Polynoms p R[X,..., X n ] in n Variablen, das nur Terme Xi uxv j mit 6-22 u, v {,, 2} und u + v 2 enthält, heißt eine Quadrik. Im Fall n = 2 sind die Quadriken genau die Kegelschnitte. Durch eine geeignete Verschiebung und Drehung des Koordinatensystems lässt sich die definierende Gleichung jeder Quadrik auf eine der drei folgenden Formen bringen: (X ) 2 (X i ) 2 (X i+ ) 2 (X j ) = α α i α i+ α j für gewisse i, j mit i j n, (X ) 2 (X i ) 2 (X i+ ) 2 (X j ) = α α i α i+ α j für gewisse i, j mit i j n, (X ) 2 (X i ) 2 (X i+ ) 2 (X j ) = 2Xn α α i α i+ α j für gewisse i, j mit i j < n. Dabei sind α,..., α j jeweils positive reelle Zahlen. Im Fall n = 3 sind Quadriken Flächen, von denen man ähnlich wie bei den Kegelschnitten verschiedene Typen unterscheiden kann. In der folgenden Übersicht sind degenerierte Fälle (z.b. Ebenen, Geraden, isolierte Punkte) nicht berücksichtigt. ( X α ) 2 ( + Y ) 2 ( β + Z ) 2 γ = ( X α ) 2 ( + Y ) 2 β = 2Z ( X α ) 2 ( Y ) 2 β = 2Z Ellipsoid elliptisches Paraboloid hyperbolisches Paraboloid ( X α ) 2 ( + Y ) 2 ( β Z ) 2 γ = einschaliges Hyperboloid ( ) X 2 ( α Y ) 2 ( β + Z ) 2 γ = zweischaliges Hyperboloid ( X α ) 2 ( + Y ) 2 ( β Z ) 2 γ = elliptischer Kegel 3

312 ( X ) 2 ( α + Y β elliptischer Zylinder ) 2 = ( X α ) 2 ( Y ) 2 β = hyperbolischer Zylinder ( X α ) 2 = 2Z parabolischer Zylinder Mit der Hauptachsentransformation kann man für eine gegebene Gleichung feststellen, welchen Typ die zugehörige Fläche hat. Beispiel. Sei p = 3X 2 2XY + 2XZ + 8X + 5Y 2 2Y Z 2Y + 3Z R[X, Y, Z]. Welchen Typ hat die Fläche F = {(x, y, z) R 2 : p(x, y, z) = } R 3? Erster Schritt: Bestimmung des Zentrums. Die Koeffizienten von X, Y, Z im Polynom p(x + u, Y + v, Z + w) lauten 8 + 6u 2v + 2w, 2 2u + v 2w und 2u 2v + 6w. Sie werden genau dann Null, wenn (u, v, w) = (, 2, ) ist. Dieser Punkt ist das Zentrum. Zeiter Schritt: Verschiebung und Normierung. Es gilt p(u, v, w) = 5. Wir setzen deshalb q = 5 p(x + u, Y + v, Z + w) = 3 5 x2 2 5 xy xz + y2 2 5 yz z2. Damit sind die linearen Terme eliminiert und der konstante Term ist auf normiert. Dritter Schritt: Bestimmung der Hauptachsen. Es gilt q = (X, Y, Z)A(X, Y, Z) für die symmetrische Matrix A = Die Eigenwerte von A lauten 6/5, 3/5, 2/5. Die zugehörigen Eigenräume sind E 6/5 = 2, E 3/5 =, E 2/5 =. Durch Normierung der Eigenvektoren und Multiplikation mit den Quadratwurzeln der Eigenwerte ergeben sich die Zeilen der orthogonalen Matrix B mit A = B B. Die Matrix lautet B = 2. 5 Daraus folgt die Darstellung q = ( x 2y + z 5 ) 2 (x + y + z ) 2 (x z )

1.3 Gruppen. Algebra I 9. April 2008 c Rudolf Scharlau,

1.3 Gruppen. Algebra I 9. April 2008 c Rudolf Scharlau, Algebra I 9. April 2008 c Rudolf Scharlau, 2002 2008 18 1.3 Gruppen Der Begriff der Gruppe ordnet sich in gewisser Weise dem allgemeineren Konzept der Verknüpfung (auf einer Menge) unter. So ist zum Beispiel

Mehr

Mengen. Eigenschaften. Spezielle Mengen (1) Prominente Mengen. ! Mengenzugehörigkeit

Mengen. Eigenschaften. Spezielle Mengen (1) Prominente Mengen. ! Mengenzugehörigkeit Mengen! Definition (Intuitive Mengenlehre) Eine Menge ist die Zusammenfassung von Elementen unserer Anschauung zu einem wohldefinierten Ganzen. (Georg Cantor)! Notation 1. Aufzählung aller Elemente: {

Mehr

1.4 Homomorphismen und Isomorphismen

1.4 Homomorphismen und Isomorphismen Algebra I 9. April 2008 c Rudolf Scharlau, 2002 2008 28 1.4 Homomorphismen und Isomorphismen Definition 1.4.1 Es seien (G, ) und (H, ) zwei Gruppen. Eine Abbildung ϕ : G H heißt (Gruppen-)Homomorphismus,

Mehr

Lineare Algebra I. Auswahlaxiom befragen. (Wer schon im Internet danach sucht, sollte das auch mal mit dem Begriff

Lineare Algebra I. Auswahlaxiom befragen. (Wer schon im Internet danach sucht, sollte das auch mal mit dem Begriff Universität Konstanz Wintersemester 2009/2010 Fachbereich Mathematik und Statistik Lösungsblatt 2 Prof. Dr. Markus Schweighofer 11.11.2009 Aaron Kunert / Sven Wagner Lineare Algebra I Lösung 2.1: Behauptung:

Mehr

Lineare Algebra I Zusammenfassung

Lineare Algebra I Zusammenfassung Prof. Dr. Urs Hartl WiSe 10/11 Lineare Algebra I Zusammenfassung 1 Vektorräume 1.1 Mengen und Abbildungen injektive, surjektive, bijektive Abbildungen 1.2 Gruppen 1.3 Körper 1.4 Vektorräume Definition

Mehr

Kapitel 1. Grundlagen Mengen

Kapitel 1. Grundlagen Mengen Kapitel 1. Grundlagen 1.1. Mengen Georg Cantor 1895 Eine Menge ist die Zusammenfassung bestimmter, wohlunterschiedener Objekte unserer Anschauung oder unseres Denkens, wobei von jedem dieser Objekte eindeutig

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Kapitel 1. Grundlagen

Kapitel 1. Grundlagen Kapitel 1. Grundlagen 1.1. Mengen Georg Cantor 1895 Eine Menge ist die Zusammenfassung bestimmter, wohlunterschiedener Objekte unserer Anschauung oder unseres Denkens, wobei von jedem dieser Objekte eindeutig

Mehr

Kongruenzen und Restklassenringe. 2. Kongruenzen und Restklassenringe

Kongruenzen und Restklassenringe. 2. Kongruenzen und Restklassenringe 2. Kongruenzen und Restklassenringe Kongruenzen Definition: Wir sagen a ist kongruent zu b modulo m schreiben a b mod m, wenn m die Differenz b-a te Beispiel: Es gilt 2 19 mod 21, 10 0 mod 2. Reflexivität:

Mehr

Diskrete Strukturen Kapitel 2: Grundlagen (Relationen)

Diskrete Strukturen Kapitel 2: Grundlagen (Relationen) WS 2016/17 Diskrete Strukturen Kapitel 2: Grundlagen (Relationen) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_16

Mehr

Einführung in die Informatik 2

Einführung in die Informatik 2 Einführung in die Informatik 2 Mathematische Grundbegriffe Sven Kosub AG Algorithmik/Theorie komplexer Systeme Universität Konstanz E 202 Sven.Kosub@uni-konstanz.de Sprechstunde: Freitag, 12:30-14:00 Uhr,

Mehr

3. Relationen Erläuterungen und Schreibweisen

3. Relationen Erläuterungen und Schreibweisen 3. Relationen Eine Relation ist allgemein eine Beziehung, die zwischen Dingen bestehen kann. Relationen im Sinne der Mathematik sind ausschließlich diejenigen Beziehungen, bei denen stets klar ist, ob

Mehr

2. Symmetrische Gruppen

2. Symmetrische Gruppen 14 Andreas Gathmann 2 Symmetrische Gruppen Im letzten Kapitel haben wir Gruppen eingeführt und ihre elementaren Eigenschaften untersucht Wir wollen nun eine neue wichtige Klasse von Beispielen von Gruppen

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Übungen zu Einführung in die Lineare Algebra und Geometrie

Übungen zu Einführung in die Lineare Algebra und Geometrie Übungen zu Einführung in die Lineare Algebra und Geometrie Andreas Cap Sommersemester 2010 Kapitel 1: Einleitung (1) Für a, b Z diskutiere analog zur Vorlesung das Lösungsverhalten der Gleichung ax = b

Mehr

Weitere Eigenschaften

Weitere Eigenschaften Weitere Eigenschaften Erklärung der Subtraktion: x y := x + ( y) (5) Die Gleichung a + x = b hat die eindeutig bestimmte Lösung x = b a. Beweis: (a) Zunächst ist x = b a eine Lösung, denn a + x = a + (b

Mehr

Formale Grundlagen 2008W. Vorlesung im 2008S Institut für Algebra Johannes Kepler Universität Linz

Formale Grundlagen 2008W. Vorlesung im 2008S  Institut für Algebra Johannes Kepler Universität Linz Formale Grundlagen Institut für Algebra Johannes Kepler Universität Linz Vorlesung im 2008S http://www.algebra.uni-linz.ac.at/students/win/fg Inhalt Definition Sei A eine Menge und ɛ A A A eine zweistellige

Mehr

Vorlesung 4. Tilman Bauer. 13. September Wir befassen uns in dieser Vorlesung noch einmal mit Mengen.

Vorlesung 4. Tilman Bauer. 13. September Wir befassen uns in dieser Vorlesung noch einmal mit Mengen. Vorlesung 4 Universität Münster 13. September 2007 1 Kartesische Wir befassen uns in dieser Vorlesung noch einmal mit Mengen. Seien M und N zwei Mengen. Dann bezeichnen wir mit M N das (kartesische) Produkt

Mehr

2 Mengen und Abbildungen

2 Mengen und Abbildungen 2.1 Mengen Unter einer Menge verstehen wir eine Zusammenfassung von Objekten zu einem Ganzen. Die Objekte heiÿen Elemente. Ist M eine Menge und x ein Element von M so schreiben wir x M. Wir sagen auch:

Mehr

1.4 Äquivalenzrelationen

1.4 Äquivalenzrelationen 8 1.4 Äquivalenzrelationen achdem nun die axiomatische Grundlage gelegt ist, können wir uns bis zur Einführung der Kategorien das Leben dadurch erleichtern, daß wir bis dorthin, also bis auf weiteres,

Mehr

Halbgruppen, Gruppen, Ringe

Halbgruppen, Gruppen, Ringe Halbgruppen-1 Elementare Zahlentheorie Einige Bezeichnungen Halbgruppen, Gruppen, Ringe Die Menge N 0 der natürlichen Zahlen 0, 1, 2, Die Menge N = N 1 der von Null verschiedenen natürlichen Zahlen Die

Mehr

Grundlagen der Mathematik

Grundlagen der Mathematik Grundlagen der Mathematik Übungsaufgaben zu Kapitel 1 Einführung 1.1.1 Für reelle Zahlen a und b gilt (a+b) (a-b) = a 2 -b 2. Was ist die Voraussetzung? Wie lautet die Behauptung? Beweisen Sie die Behauptung.

Mehr

$Id: gruppen.tex,v /04/24 15:25:02 hk Exp $ $Id: ring.tex,v /04/24 15:35:17 hk Exp $

$Id: gruppen.tex,v /04/24 15:25:02 hk Exp $ $Id: ring.tex,v /04/24 15:35:17 hk Exp $ $Id: gruppen.tex,v 1.13 2012/04/24 15:25:02 hk Exp $ $Id: ring.tex,v 1.11 2012/04/24 15:35:17 hk Exp $ 2 Gruppen 2.3 Zyklische Gruppen Wir hatten am Ende der letzten Sitzung bewiesen, dass in einer endlichen

Mehr

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 25. April 2016 Die Dimensionsformel Definition 3.9 Sei f : V W eine lineare Abbildung zwischen zwei K-Vektorräumen. Der Kern

Mehr

R = {(1, 1), (2, 2), (3, 3)} K 1 = {1} K 2 = {2} K 3 = {3}

R = {(1, 1), (2, 2), (3, 3)} K 1 = {1} K 2 = {2} K 3 = {3} Äquivalenzrelationen Aufgabe 1. Lesen Sie im Skript nach was eine Äquivalenzrelation und eine Äquivalenzklasse ist. Gegeben ist die Menge A = {1, 2, 3. Finden Sie 3 Äquivalenzrelationen auf A und geben

Mehr

Formale Grundlagen 2008W. Vorlesung im 2008S Institut für Algebra Johannes Kepler Universität Linz

Formale Grundlagen 2008W. Vorlesung im 2008S  Institut für Algebra Johannes Kepler Universität Linz Formale Grundlagen Institut für Algebra Johannes Kepler Universität Linz Vorlesung im 2008S http://www.algebra.uni-linz.ac.at/students/win/fg Inhalt Vektoren in der Ebene Zwei Punkten P, Q in der Ebene

Mehr

Brückenkurs Mathematik 2015

Brückenkurs Mathematik 2015 Technische Universität Dresden Fachrichtung Mathematik, Institut für Analysis Dr.rer.nat.habil. Norbert Koksch Brückenkurs Mathematik 2015 1. Vorlesung Logik, Mengen und Funktionen Ich behaupte aber, dass

Mehr

3. Zahlbereiche und algebraische Strukturen

3. Zahlbereiche und algebraische Strukturen technische universität dortmund Dortmund, im November 2011 Fakultät für Mathematik Prof. Dr. H. M. Möller Lineare Algebra für Lehramt Gymnasien und Berufskolleg Zusammenfassung von Kapitel 3 3. Zahlbereiche

Mehr

Mathematik-Vorkurs für Informatiker (Wintersemester 2012/13) Übungsblatt 8 (Relationen und Funktionen)

Mathematik-Vorkurs für Informatiker (Wintersemester 2012/13) Übungsblatt 8 (Relationen und Funktionen) DEPENDABLE SYSTEMS AND SOFTWARE Fachrichtung 6. Informatik Universität des Saarlandes Christian Eisentraut, M.Sc. Julia Krämer Mathematik-Vorkurs für Informatiker (Wintersemester 0/3) Übungsblatt 8 (Relationen

Mehr

Outline. 1 Vektoren im Raum. 2 Komponenten und Koordinaten. 3 Skalarprodukt. 4 Vektorprodukt. 5 Analytische Geometrie. 6 Lineare Räume, Gruppentheorie

Outline. 1 Vektoren im Raum. 2 Komponenten und Koordinaten. 3 Skalarprodukt. 4 Vektorprodukt. 5 Analytische Geometrie. 6 Lineare Räume, Gruppentheorie Outline 1 Vektoren im Raum 2 Komponenten und Koordinaten 3 Skalarprodukt 4 Vektorprodukt 5 Analytische Geometrie 6 Lineare Räume, Gruppentheorie Roman Wienands (Universität zu Köln) Mathematik II für Studierende

Mehr

5. Gruppen, Ringe, Körper

5. Gruppen, Ringe, Körper 5. Gruppen, Ringe, Körper 5.1. Gruppen Die Gruppentheorie, als mathematische Disziplin im 19. Jahrhundert entstanden, ist ein Wegbereiter der modernen Mathematik. Beispielsweise folgt die Gruppe, die aus

Mehr

5. Äquivalenzrelationen

5. Äquivalenzrelationen 5. Äquivalenzrelationen 35 5. Äquivalenzrelationen Wenn man eine große und komplizierte Menge (bzw. Gruppe) untersuchen will, so kann es sinnvoll sein, zunächst kleinere, einfachere Mengen (bzw. Gruppen)

Mehr

1 Algebraische Strukturen

1 Algebraische Strukturen Prof. Dr. Rolf Socher, FB Technik 1 1 Algebraische Strukturen In der Mathematik beschäftigt man sich oft mit Mengen, auf denen bestimmte Operationen definiert sind. Es kommt oft vor, dass diese Operationen

Mehr

Algebraische Kurven. Holger Grzeschik

Algebraische Kurven. Holger Grzeschik Algebraische Kurven Holger Grzeschik 29.04.2004 Inhaltsübersicht 1.Einführung in die Theorie algebraischer Kurven 2.Mathematische Wiederholung Gruppen, Ringe, Körper 3.Allgemeine affine Kurven 4.Singuläre

Mehr

4.3 Bilinearformen. 312 LinAlg II Version Juni 2006 c Rudolf Scharlau

4.3 Bilinearformen. 312 LinAlg II Version Juni 2006 c Rudolf Scharlau 312 LinAlg II Version 0 20. Juni 2006 c Rudolf Scharlau 4.3 Bilinearformen Bilinearformen wurden bereits im Abschnitt 2.8 eingeführt; siehe die Definition 2.8.1. Die dort behandelten Skalarprodukte sind

Mehr

2 Die Menge der ganzen Zahlen. von Peter Franzke in Berlin

2 Die Menge der ganzen Zahlen. von Peter Franzke in Berlin Die Menge der ganzen Zahlen von Peter Franzke in Berlin Das System der natürlichen Zahlen weist einen schwerwiegenden Mangel auf: Es gibt Zahlen mn, derart, dass die lineare Gleichung der Form mx n keine

Mehr

7 Vektorräume und Körperweiterungen

7 Vektorräume und Körperweiterungen $Id: vektor.tex,v 1.3 2009/05/25 15:03:47 hk Exp $ 7 Vektorräume und Körperweiterungen Wir sind gerade bei der Besprechung derjenigen Grundeigenschaften des Tensorprodukts, die mit vergleichsweise wenig

Mehr

3.5 Ringe und Körper. Diese Eigenschaften kann man nun auch. 1. (R, +) ist eine kommutative Gruppe. 2. Es gilt das Assoziativgesetz bezüglich.

3.5 Ringe und Körper. Diese Eigenschaften kann man nun auch. 1. (R, +) ist eine kommutative Gruppe. 2. Es gilt das Assoziativgesetz bezüglich. 3.5 Ringe und Körper Gehen wir noch mal zu den ganzen Zahlen zurück. Wir wissen: (Z, + ist eine Gruppe, es gibt aber als Verknüpfung noch die Multiplikation, es gibt ein neutrales Element bezüglich, es

Mehr

1 Algebraische Grundbegriffe

1 Algebraische Grundbegriffe 1 Algebraische Grundbegriffe Eine Algebra besteht aus einer Trägermenge S sowie eineroder mehreren Operationen. Eine Operation ist dabei eine k-stellige Abbildung, d.h. es gilt für eine Operation f f S

Mehr

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011 Mathematik für Informatiker II Christoph Eisinger Sommersemester 211 Beispiellösungen zur Probeklausur Aufgabe 1 Gegeben sind die Polynome f, g, h K[x]. Zu zeigen: Es gibt genau dann Polynome h 1 und h

Mehr

PRÜFUNG AUS ALGEBRA UND DISKRETE MATHEMATIK F. INF. U. WINF.

PRÜFUNG AUS ALGEBRA UND DISKRETE MATHEMATIK F. INF. U. WINF. Zuname: Vorname: Matrikelnummer: PRÜFUNG AUS ALGEBRA UND DISKRETE MATHEMATIK F. INF. U. WINF. (GITTENBERGER) Wien, am 5. Februar 2013 (Ab hier freilassen!) Arbeitszeit: 100 Minuten 1) 2) 3) 4) 5) 1)(8

Mehr

Vorkurs Mathematik Abbildungen

Vorkurs Mathematik Abbildungen Vorkurs Mathematik Abbildungen Philip Bell 19. September 2016 Diese Arbeit beruht im Wesentlichen auf dem Vortrag Relationen, Partitionen und Abbildungen von Fabian Grünig aus den vorangehenden Jahren.

Mehr

Vorlesung. Funktionen/Abbildungen

Vorlesung. Funktionen/Abbildungen Vorlesung Funktionen/Abbildungen 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

1. Gruppen. 1. Gruppen 7

1. Gruppen. 1. Gruppen 7 1. Gruppen 7 1. Gruppen Wie schon in der Einleitung erläutert wollen wir uns in dieser Vorlesung mit Mengen beschäftigen, auf denen algebraische Verknüpfungen mit gewissen Eigenschaften definiert sind.

Mehr

Einführung in die Mengenlehre

Einführung in die Mengenlehre Einführung in die Mengenlehre D (Menge von Georg Cantor 845-98) Eine Menge ist eine Zusammenfassung bestimmter wohlunterschiedener Objekte unseres Denkens oder unserer Anschauung zu einem Ganzen wobei

Mehr

Lineare Algebra 1. Detlev W. Hoffmann. WS 2013/14, TU Dortmund

Lineare Algebra 1. Detlev W. Hoffmann. WS 2013/14, TU Dortmund Lineare Algebra 1 Detlev W. Hoffmann WS 2013/14, TU Dortmund 1 Mengen und Zahlen 1.1 Mengen und Abbildungen Eine Menge ist eine Zusammenfassung wohlunterscheidbarer Objekte unserer Anschauung/unseres Denkens/unserer

Mehr

2.1 Eigenschaften und Beispiele von Gruppen Untergruppen Homomorphismen... 25

2.1 Eigenschaften und Beispiele von Gruppen Untergruppen Homomorphismen... 25 2 Gruppen Übersicht 2.1 Eigenschaften und Beispiele von Gruppen............................. 17 2.2 Untergruppen...................................................... 21 2.3 Homomorphismen..................................................

Mehr

Surjektive, injektive und bijektive Funktionen.

Surjektive, injektive und bijektive Funktionen. Kapitel 1: Aussagen, Mengen, Funktionen Surjektive, injektive und bijektive Funktionen. Definition. Sei f : M N eine Funktion. Dann heißt f surjektiv, falls die Gleichung f(x) = y für jedes y N mindestens

Mehr

Ringe und Moduln. ausgearbeitet von. Corinna Dohle Matrikelnummer 6299128 corinna@math.upb.de

Ringe und Moduln. ausgearbeitet von. Corinna Dohle Matrikelnummer 6299128 corinna@math.upb.de Ringe und Moduln ausgearbeitet von Corinna Dohle Matrikelnummer 6299128 corinna@math.upb.de Seminar Darstellungstheorie Prof. Dr. H. Krause, PD Dr. D. Kussin Wintersemester 2007/2008 Grundlagen 1 Grundlagen

Mehr

2.9 Die komplexen Zahlen

2.9 Die komplexen Zahlen LinAlg II Version 1 3. April 2006 c Rudolf Scharlau 121 2.9 Die komplexen Zahlen Die komplexen Zahlen sind unverzichtbar für nahezu jede Art von höherer Mathematik. Systematisch gehören sie zum einen in

Mehr

Algebra und Diskrete Mathematik, PS3. Sommersemester Prüfungsfragen

Algebra und Diskrete Mathematik, PS3. Sommersemester Prüfungsfragen Algebra und Diskrete Mathematik, PS3 Sommersemester 2016 Prüfungsfragen Erläutern Sie die Sätze über die Division mit Rest für ganze Zahlen und für Polynome (mit Koeffizienten in einem Körper). Wodurch

Mehr

Diskrete Mathematik. Sebastian Iwanowski FH Wedel. Kap. 4: Zahlentheorie

Diskrete Mathematik. Sebastian Iwanowski FH Wedel. Kap. 4: Zahlentheorie Prof. Dr. Sebastian Iwanowski DM4 Folie 1 Referenzen zum Nacharbeiten: Diskrete Mathematik Sebastian Iwanowski FH Wedel Kap. 4: Zahlentheorie Beutelspacher 5 Lang 7, Biggs 20, 22, 23 (jeweils teilweise,

Mehr

Diskrete Strukturen. Restklassenringe WS 2013/2014. Vorlesung vom 24. Jänner 2014

Diskrete Strukturen. Restklassenringe WS 2013/2014. Vorlesung vom 24. Jänner 2014 Diskrete Strukturen WS 2013/2014 Vorlesung vom 24. Jänner 2014 Thomas Vetterlein Institut für Wissensbasierte Mathematische Systeme Johannes-Kepler-Universität Linz 10.1 Die Modulo-n-Relation Definition

Mehr

1 Axiomatische Charakterisierung der reellen. 3 Die natürlichen, die ganzen und die rationalen. 4 Das Vollständigkeitsaxiom und irrationale

1 Axiomatische Charakterisierung der reellen. 3 Die natürlichen, die ganzen und die rationalen. 4 Das Vollständigkeitsaxiom und irrationale Kapitel I Reelle Zahlen 1 Axiomatische Charakterisierung der reellen Zahlen R 2 Angeordnete Körper 3 Die natürlichen, die ganzen und die rationalen Zahlen 4 Das Vollständigkeitsaxiom und irrationale Zahlen

Mehr

Lineare Algebra 6. Übungsblatt

Lineare Algebra 6. Übungsblatt Lineare Algebra 6. Übungsblatt Fachbereich Mathematik M. Schneider 16.05.01 Konstantin Pertschik, Daniel Körnlein Gruppenübung Aufgabe G19 Berechnen Sie das inverse Element bzgl. Multiplikation in der

Mehr

Stefan Ruzika. 24. April 2016

Stefan Ruzika. 24. April 2016 Stefan Ruzika Mathematisches Institut Universität Koblenz-Landau Campus Koblenz 24. April 2016 Stefan Ruzika 2: Körper 24. April 2016 1 / 21 Gliederung 1 1 Schulstoff 2 Körper Definition eines Körpers

Mehr

Die Dimension eines Vektorraumes

Die Dimension eines Vektorraumes Die Dimension eines Vektorraumes Ist (b 1, b 2,..., b n ) eine Basis des Vektorraums V, so heißt n die Dimension von V. Die Möglichkeit dieser Definition beruht auf dem folgenden nichttrivialen Satz. Je

Mehr

Proseminar Lineare Algebra II, SS 11. Blatt

Proseminar Lineare Algebra II, SS 11. Blatt Blatt 1 1. Berechnen Sie die Determinante der Matrix 0 0 4 1 2 5 1 7 1 2 0 3 1 3 0 α. 2. Stellen Sie folgende Matrix als Produkt von Elementarmatrizen dar: 1 3 1 4 2 5 1 3 0 4 3 1. 3 1 5 2 3. Seien n 2

Mehr

Spickzettel Mathe C1

Spickzettel Mathe C1 Spickzettel Mathe C1 1 Mengenlehre 1.1 Potenzmenge Die Potenzmenge P (Ω) einer Menge Ω ist die Menge aller Teilmengen von Ω. Dabei gilt: P (Ω) := {A A Ω} card P (Ω) = 2 card Ω P (Ω) 1.2 Mengenalgebra Eine

Mehr

[Ausarbeitung Mathe 3 Prüfungsfragen WH]

[Ausarbeitung Mathe 3 Prüfungsfragen WH] 2008 [Ausarbeitung Mathe 3 Prüfungsfragen WH] Wichtige Anmerkung des Autors: Diese Ausarbeitung ist meine persönliche Interpretation der Antworten. Es gibt keinerlei Gewähr, dass die Antworten stimmen

Mehr

1 Definition von Relation, Äquivalenzrelation und Äquivalenzklassen

1 Definition von Relation, Äquivalenzrelation und Äquivalenzklassen 1 Definition von Relation, Äquivalenzrelation und Äquivalenzklassen Einleitung 1 Wie der Name schon sagt sind Äquivalenzrelationen besondere Relationen. Deswegen erkläre ich hier ganz allgemein, was Relationen

Mehr

7. Ringe und Körper. 7. Ringe und Körper 49

7. Ringe und Körper. 7. Ringe und Körper 49 7. Ringe und Körper 49 7. Ringe und Körper In den bisherigen Kapiteln haben wir nur Gruppen, also insbesondere nur Mengen mit lediglich einer Verknüpfung, untersucht. In der Praxis gibt es aber natürlich

Mehr

Mathematische Grundlagen der Computerlinguistik Relationen und Funktionen

Mathematische Grundlagen der Computerlinguistik Relationen und Funktionen Mathematische Grundlagen der Computerlinguistik Relationen und Funktionen Dozentin: Wiebke Petersen 2. Foliensatz Wiebke Petersen math. Grundlagen 25 n-tupel und Cartesisches Produkt Mengen sind ungeordnet,

Mehr

Zahlen und metrische Räume

Zahlen und metrische Räume Zahlen und metrische Räume Natürliche Zahlen : Die natürlichen Zahlen sind die grundlegendste Zahlenmenge, da man diese Menge für das einfache Zählen verwendet. N = {1, 2, 3, 4,...} bzw. N 0 = {0, 1, 2,

Mehr

2. Machen Sie sich klar, dass jede denkbare Festsetzung fur die noch fehlenden\ Dierenzen durch Werte in N 0 unschone\ Konsequenzen hat.

2. Machen Sie sich klar, dass jede denkbare Festsetzung fur die noch fehlenden\ Dierenzen durch Werte in N 0 unschone\ Konsequenzen hat. 3 Die ganzen Zahlen 3.1 Historisches Die { bisher noch nicht erklarte { Subtraktion ist in N 0 nicht uneingeschrankt durchfuhrbar. Die negativen Zahlen wurden noch zu Zeiten von Rene Descartes als falsche\

Mehr

Mathematik für Ökonomen 1

Mathematik für Ökonomen 1 Mathematik für Ökonomen 1 Dr. Thomas Zehrt Wirtschaftswissenschaftliches Zentrum Universität Basel Herbstemester 2008 Mengen, Funktionen und Logik Inhalt: 1. Mengen 2. Funktionen 3. Logik Teil 1 Mengen

Mehr

Kapitel 2 Mathematische Grundlagen

Kapitel 2 Mathematische Grundlagen Kapitel 2 Mathematische Grundlagen Ziel: Einführung/Auffrischung einiger mathematischer Grundlagen 2.1 Mengen, Relationen, Ordnungen Definition: Eine Menge ist eine Zusammenfassung von wohlbestimmten und

Mehr

Elemente der Algebra und Zahlentheorie Musterlösung, Serie 3, Wintersemester vom 15. Januar 2006

Elemente der Algebra und Zahlentheorie Musterlösung, Serie 3, Wintersemester vom 15. Januar 2006 Prof. E.-W. Zink Institut für Mathematik Humboldt-Universität zu Berlin Elemente der Algebra und Zahlentheorie Musterlösung, Serie 3, Wintersemester 2005-06 vom 15. Januar 2006 2te, korrigierte und erweiterte

Mehr

Mengenlehre. ALGEBRA Kapitel 1 MNProfil - Mittelstufe KZN. Ronald Balestra CH Zürich Name: Vorname:

Mengenlehre. ALGEBRA Kapitel 1 MNProfil - Mittelstufe KZN. Ronald Balestra CH Zürich  Name: Vorname: Mengenlehre ALGEBRA Kapitel 1 MNProfil - Mittelstufe KZN Ronald Balestra CH - 8046 Zürich www.ronaldbalestra.ch Name: Vorname: 21. August 2016 Inhaltsverzeichnis 1 Mengenlehre 1 1.1 Die Menge im mathematischen

Mehr

1.1 Mengen und Abbildungen

1.1 Mengen und Abbildungen Lineare Algebra I WS 2015/16 c Rudolf Scharlau 3 1.1 Mengen und Abbildungen In diesem Abschnitt stellen wir die grundlegende mathematische Sprache und Notation zusammen, die für jede Art von heutiger Mathematik

Mehr

Notizen zu Transformationen und Permutationen. T (A) = {f : A A}

Notizen zu Transformationen und Permutationen. T (A) = {f : A A} Transformationen Notizen zu Transformationen und Permutationen Ist A eine Menge, so ist die Menge T (A) = {f : A A} bezüglich der Komposition (Hintereinanderausführung) als Operation und der identischen

Mehr

Vorlesung Diskrete Strukturen Gruppe und Ring

Vorlesung Diskrete Strukturen Gruppe und Ring Vorlesung Diskrete Strukturen Gruppe und Ring Bernhard Ganter Institut für Algebra TU Dresden D-01062 Dresden bernhard.ganter@tu-dresden.de WS 2009/10 1 Bernhard Ganter, TU Dresden Modul Einführung in

Mehr

reflexiv, symmetrisch, asymmetrisch, antisymmetrisch, transitiv, linaer konnex Kommutator, Kommutatorgrupe, Normalreihe, auflösbare Gruppe

reflexiv, symmetrisch, asymmetrisch, antisymmetrisch, transitiv, linaer konnex Kommutator, Kommutatorgrupe, Normalreihe, auflösbare Gruppe 1 Lernliste 1.1 Relationen reflexiv, symmetrisch, asymmetrisch, antisymmetrisch, transitiv, linaer konnex Äquivalenzrelation, Kongruenzrelation Klasseneinteilung Hauptsatz über Äquivalenzrelationen Jede

Mehr

Symmetrien. Transformationen. Affine und euklidische Räume

Symmetrien. Transformationen. Affine und euklidische Räume Symmetrien Transformationen Der Gruppenbegriff entwickelte sich aus dem Begriff der Transformationsgruppe. In dieser Form tauchen auch die meisten Gruppen in der Mathematik, Physik, Chemie, Kristallographie,

Mehr

Zahlen. Bernhard Ganter. Institut für Algebra TU Dresden D Dresden

Zahlen. Bernhard Ganter. Institut für Algebra TU Dresden D Dresden Zahlen Bernhard Ganter Institut für Algebra TU Dresden D-01062 Dresden bernhard.ganter@tu-dresden.de Die natürlichen Zahlen Für eine beliebige Menge S definiert man den Nachfolger S + durch S + := S {S}.

Mehr

Technische Universität München Zentrum Mathematik. Übungsblatt 7

Technische Universität München Zentrum Mathematik. Übungsblatt 7 Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 7 Hausaufgaben Aufgabe 7. Für n N ist die Matrix-Exponentialfunktion

Mehr

2.2 Konstruktion der rationalen Zahlen

2.2 Konstruktion der rationalen Zahlen 2.2 Konstruktion der rationalen Zahlen Wie wir in Satz 2.6 gesehen haben, kann man die Gleichung a + x = b in Z jetzt immer lösen, allerdings die Gleichung a x = b im allgemeinen immer noch nicht. Wir

Mehr

Mengen, Funktionen und Logik

Mengen, Funktionen und Logik Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Mengen, Funktionen und Logik Literatur Referenz: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

Einführung Gruppen, Beispiele, Konjugationsklassen

Einführung Gruppen, Beispiele, Konjugationsklassen Einführung Gruppen, eispiele, Konjugationsklassen Fabian Rühle 21.10.2015 Inhaltsverzeichnis 1 Definition von Gruppen und einfache eispiele 1 2 Die zyklische Gruppe n 2 3 Die Diedergruppe D n 3 4 Die Permutationsgruppe

Mehr

Grundbegriffe der Mathematik

Grundbegriffe der Mathematik Grundbegriffe der Mathematik Geschrieben von Jan Pöschko auf Grundlage der Vorlesung im WS 2005/2006 von Ao.Univ.-Prof. Clemens Heuberger Inhaltsverzeichnis 1 Aussagenlogik 3 1.1 Verknüpfungen..........................................

Mehr

Topologische Aspekte: Eine kurze Zusammenfassung

Topologische Aspekte: Eine kurze Zusammenfassung Kapitel 1 Topologische Aspekte: Eine kurze Zusammenfassung Wer das erste Knopfloch verfehlt, kommt mit dem Zuknöpfen nicht zu Rande J. W. Goethe In diesem Kapitel bringen wir die Begriffe Umgebung, Konvergenz,

Mehr

1.5 Duales Gitter und Diskriminantengruppe

1.5 Duales Gitter und Diskriminantengruppe Gitter und Codes c Rudolf Scharlau 24. April 2009 27 1.5 Duales Gitter und Diskriminantengruppe Dieser Abschnitt ist im wesentlichen algebraischer Natur: Es spielt keine Rolle, dass unsere Gitter in einem

Mehr

Axiomatische Beschreibung der ganzen Zahlen

Axiomatische Beschreibung der ganzen Zahlen Axiomatische Beschreibung der ganzen Zahlen Peter Feigl JKU Linz peter.feigl@students.jku.at 0055282 Claudia Hemmelmeir JKU Linz darja@gmx.at 0355147 Zusammenfassung Wir möchten in diesem Artikel die ganzen

Mehr

Einführung in die Algebra

Einführung in die Algebra Prof. Dr. H. Brenner Osnabrück SS 2009 Einführung in die Algebra Vorlesung 13 Einheiten Definition 13.1. Ein Element u in einem Ring R heißt Einheit, wenn es ein Element v R gibt mit uv = vu = 1. DasElementv

Mehr

Analysis I - Stetige Funktionen

Analysis I - Stetige Funktionen Kompaktheit und January 13, 2009 Kompaktheit und Funktionengrenzwert Definition Seien X, d X ) und Y, d Y ) metrische Räume. Desweiteren seien E eine Teilmenge von X, f : E Y eine Funktion und p ein Häufungspunkt

Mehr

Seminar Kommutative Algebra und Varietäten Vortrag 1: Ideale kommutativer Ringe

Seminar Kommutative Algebra und Varietäten Vortrag 1: Ideale kommutativer Ringe Seminar Kommutative Algebra und Varietäten Vortrag 1: Ideale kommutativer Ringe Sebastian Dobrzynski 17042014 1 Grundsätzliches zu Idealen Vorab legen wir fest: Alle im Vortrag betrachteten Ringe sind

Mehr

Lineare Algebra I (WS 13/14)

Lineare Algebra I (WS 13/14) Lineare Algebra I (WS 13/14) Alexander Lytchak Nach einer Vorlage von Bernhard Hanke 29.11.2013 Alexander Lytchak 1 / 13 Wiederholung Der Rang einer linearen Abbildung ist gleich dem Spaltenrang der darstellenden

Mehr

Vorlesung. Funktionen/Abbildungen 1

Vorlesung. Funktionen/Abbildungen 1 Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

Kapitel 2 MENGENLEHRE

Kapitel 2 MENGENLEHRE Kapitel 2 MENGENLEHRE In diesem Kapitel geben wir eine kurze Einführung in die Mengenlehre, mit der man die ganze Mathematik begründen kann. Wir werden sehen, daßjedes mathematische Objekt eine Menge ist.

Mehr

Karlsruher Institut für Technologie Institut für Algebra und Geometrie

Karlsruher Institut für Technologie Institut für Algebra und Geometrie Karlsruher Institut für Technologie Institut für Algebra und Geometrie PD Dr. Stefan Kühnlein Dipl.-Math. Jochen Schröder Einführung in Algebra und Zahlentheorie Übungsblatt 10 1 Aufgabe 1 (4 Punkte) Sei

Mehr

1 Angeordnete Körper. 1.1 Anordnungen und Positivbereiche

1 Angeordnete Körper. 1.1 Anordnungen und Positivbereiche 1 1 Angeordnete Körper 1.1 Anordnungen und Positivbereiche Definition 1.1. Eine zweistellige Relation auf einer Menge heißt partielle Ordnung, falls für alle Elemente a, b, c der Menge gilt: (i) a a (ii)

Mehr

Konstruktion der reellen Zahlen 1 von Philipp Bischo

Konstruktion der reellen Zahlen 1 von Philipp Bischo Konstruktion der reellen Zahlen 1 von Philipp Bischo 1.Motivation 3 1.1. Konstruktion von R im allgemeine 3 2.Voraussetzung 3 2.1Die Menge Q zusammen mit den beiden Verknüpfungen 3 2.2Die Rationalen Zahlen

Mehr

Anwesenheitsübung zur Vorlesung Algebra und Zahlentheorie

Anwesenheitsübung zur Vorlesung Algebra und Zahlentheorie Anwesenheitsübung zur Vorlesung Algebra und Zahlentheorie WS 205/206 A Rincón, A Schmitt 5 Dezember 205 Aufgabe (0+0 Punkte a Bestimmen Sie die Primfaktorzerlegungen der Zahlen 505 und 2600 und geben Sie

Mehr

Übungen zur Linearen Algebra 1

Übungen zur Linearen Algebra 1 Übungen zur Linearen Algebra 1 Wintersemester 014/015 Universität Heidelberg - IWR Prof. Dr. Guido Kanschat Dr. Dörte Beigel Philipp Siehr Blatt 7 Abgabetermin: Freitag, 05.1.014, 11 Uhr Aufgabe 7.1 (Vektorräume

Mehr

Lineare Abbildungen und Darstellungsmatrizen

Lineare Abbildungen und Darstellungsmatrizen KAPITEL 4 Lineare Abbildungen und Darstellungsmatrizen 1. Lineare Abbildungen Definition 4.1 (Lineare Abbildungen). Seien V und W zwei Vektorräume über den selben Körper K. Eine Abbildung f : V W heißt

Mehr

Komplexe Zahlen und konforme Abbildungen

Komplexe Zahlen und konforme Abbildungen Kapitel 1 Komplexe Zahlen und konforme Abbildungen 1.0 Geometrie der komplexen Zahlen Die Menge C der komplexen Zahlen, lässt sich mithilfe der bijektiven Abbildung C := {x + iy : x,y R}, C z = x + iy

Mehr

Kapitel III. Lineare Abbildungen

Kapitel III. Lineare Abbildungen Kapitel III. Lineare Abbildungen Beispiele: 1 Lineare Abbildungen a) Seien c 1,..., c n K vorgegeben. Betrachte die Funktion F (x 1,..., x n ) = c 1 x 1 + c 2 x 2 +... + c n x n in den Variablen x 1,...,

Mehr

Definition 153 Sei n eine fest gewählte ganze Zahl 0. Für jedes l Z heißt die Menge

Definition 153 Sei n eine fest gewählte ganze Zahl 0. Für jedes l Z heißt die Menge 3.6 Restklassen in Polynomringen 3.6.1 Einführung und Definitionen Der Begriff der Restklasse stammt ursprünglich aus der Teilbarkeitslehre in Z; (Z = Z, +, ist ein kommutativer Ring). Definition 153 Sei

Mehr

Analysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME

Analysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME Analysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME Dietmar A. Salamon ETH-Zürich 23. Februar 2015 1 Topologische Grundbegriffe Sei (X, d) ein metrischer Raum, d.h. X ist eine Menge und d : X X R ist

Mehr

Mengen und Abbildungen

Mengen und Abbildungen 1 Mengen und bbildungen sind Hilfsmittel ( Sprache ) zur Formulierung von Sachverhalten; naive Vorstellung gemäß Georg Cantor (1845-1918) (Begründer der Mengenlehre). Definition 1.1 Eine Menge M ist eine

Mehr