Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger



Ähnliche Dokumente
Diskriminanzanalyse Beispiel

Korrelation (II) Korrelation und Kausalität

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Lineare Gleichungssysteme

Kapitalerhöhung - Verbuchung

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Formelsammlung zur Kreisgleichung

Repetitionsaufgaben Wurzelgleichungen

QM: Prüfen -1- KN

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Professionelle Seminare im Bereich MS-Office

Zeichen bei Zahlen entschlüsseln

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Linearen Gleichungssysteme Anwendungsaufgaben

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1

IRF2000 Application Note Lösung von IP-Adresskonflikten bei zwei identischen Netzwerken

Tutorium zur Mikroökonomie II WS 02/03 Universität Mannheim Tri Vi Dang. Aufgabenblatt 3 (KW 44) ( )

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Multivariate Verfahren

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Fortgeschrittene Statistik Logistische Regression

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Kapitalerhöhung - Verbuchung

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Willkommen zur Vorlesung Statistik

Die Größe von Flächen vergleichen

= i (V) = d 2. v = d! p! n da v 1 = v 2 gilt auch d 1 ÿ p ÿ n 1 = d 2 ÿ p ÿ n 2 (III) p kürzen (Division durch p) d 1 ÿ n 1 = d 2 ÿ n 2 (IV) oder

Bruchrechnung Wir teilen gerecht auf

Statistische Thermodynamik I Lösungen zur Serie 1

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

DAS ABI-PFLICHTTEIL Büchlein

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

4. Erstellen von Klassen

einfache Rendite

DIFFERENTIALGLEICHUNGEN

Repetitionsaufgaben: Lineare Funktionen

Die reellen Lösungen der kubischen Gleichung

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

1 topologisches Sortieren

Quadratische Gleichungen

Berechnung der Erhöhung der Durchschnittsprämien

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

WinWerk. Prozess 4 Akonto. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Lösungsmethoden gewöhnlicher Differentialgleichungen (Dgl.)

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Wie Projektziele gemessen werden können oder wie man Indikatoren entwickeln kann?

9. Schätzen und Testen bei unbekannter Varianz

Übung 5 : G = Wärmeflussdichte [Watt/m 2 ] c = spezifische Wärmekapazität k = Wärmeleitfähigkeit = *p*c = Wärmediffusität

1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R

Informationsblatt Induktionsbeweis

6.2 Scan-Konvertierung (Scan Conversion)

Plotten von Linien ( nach Jack Bresenham, 1962 )

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Lineare Gleichungssysteme

Lösungshinweise zur Einsendearbeit 2 SS 2011

Primzahlen und RSA-Verschlüsselung

Info zum Zusammenhang von Auflösung und Genauigkeit

Übungsaufgaben Tilgungsrechnung

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Wie halte ich Ordnung auf meiner Festplatte?

Zufallsgrößen und Wahrscheinlichkeitsverteilungen

ist die Vergütung für die leihweise Überlassung von Kapital ist die leihweise überlassenen Geldsumme

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Stichprobenauslegung. für stetige und binäre Datentypen

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Microsoft Update Windows Update

A1.7: Entropie natürlicher Texte

Anlegen eines DLRG Accounts

Ein Hinweis vorab: Mailkonfiguration am Beispiel von Thunderbird

Theoretische Grundlagen der Informatik WS 09/10

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Hans-Friedrich Eckey SS Skript zur Lehrveranstaltung Multivariate Statistik

Klausur zur Vorlesung Stochastische Modelle in Produktion und Logistik im SS 09

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Schreiben Sie Ihre ö AUSSCHLIEßLICH!!! auf. die leeren Seiten 5 8!

Was ist Sozial-Raum-Orientierung?

Tutorial: Homogenitätstest

Nullserie zur Prüfungsvorbereitung

EMIS - Langzeitmessung

Transkript:

Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger Diskriminanzanalyse am Fallbeispiel von 23 Klimastationen in Tunesien

Inhaltsverzeichnis 1 Einführung... 1 1.1 Was ist die Diskriminanzanalyse?... 1 1.2 Verwendung der Diskriminanzanalyse in der Geographie... 2 1.3 Voraussetzung für die Diskriminanzanalyse... 2 2 Verfahren... 3 2.1 Definition der Gruppen und Variablen... 3 2.2 Formulierung der Diskriminanzfunktion (Trennfunktion)... 3 2.3 Schätzung der Diskriminanzfunktion... 4 2.4 Prüfung der Diskriminanzfunktion... 5 2.5 Prüfung der Merkmalsvariablen... 8 2.6 Klassifizierung von Objekten... 9 2.7 Mehr-Gruppen Mehr-Variablen-Fall... 9 3 Fallbeispiel Tunesien... 10 4 Literaturverzeichnis... 13 1 Einführung 1.1 Was ist die Diskriminanzanalyse? Die Diskriminanzanalyse ist ein multivariates Verfahren zur Analyse von Gruppen- bzw. Klassenunterschieden. Mit dieser Methode ist es möglich, zwei oder mehrere Gruppen unter Berücksichtigung von mehreren Variablen zu untersuchen und zu ermitteln, wie sich diese Gruppen unterscheiden. Im Unterschied zur Clusteranalyse ist die Diskriminanzanalyse kein exploratives, sondern ein konfirmatorisches Verfahren. Durch die Diskriminanzanalyse werden keine Gruppen gebildet, sondern man geht von einer vorhandenen Gruppierung aus und überprüft die Qualität dieser Gruppierung. Durch die Diskriminanzanalyse lässt sich analysieren, ob die vorliegende, möglicherweise durch Clusteranalyse ermittelte Gruppierung optimal ist oder ob sie verbessert werden kann; 1

welche Variablen für die Gruppenbildung besonders geeignet sind bzw. auf welche Variablen sich die Gruppenunterschiede hauptsächlich zurückführen lassen; in welche Gruppe ein neues Objekt aufgrund seiner Merkmalsausprägungen einsortiert werden kann. 1.2 Verwendung der Diskriminanzanalyse in der Geographie Für die Geographie ist die Diskriminanzanalyse vor allem bei der Lösung der folgenden Aufgabenstellungen einsetzbar (BAHRENBERG, 1992, S. 318): Trennung von Raumeinheiten nach verschiedenen Merkmalen zur Raumtypisierung; Überprüfung und u.u. Verbesserung einer vorgegeben Raumgliederung, die z.b. per Clusteranalyse ermittelt wurde; Zuordnung von nicht klassifizierten Raumeinheiten zu vorgegeben Raumtypen; Analyse der Unterschiede zwischen verschieden Raumtypen. 1.3 Voraussetzung für die Diskriminanzanalyse metrisch skalierte Merkmalsvariablen optimalerweise eine Normalverteilung der vorliegenden Daten kein Element der Stichprobe darf gleichzeitig mehreren Gruppen zugeordnet sein der Stichprobenumfang soll mindestens doppelt so hoch sein wie die Anzahl der M erkmalsvariablen die Anzahl der Merkmalsvariablen sollte größer sein als die Anzahl der Gruppen 2

2 Verfahren 2.1 Definition der Gruppen und Variablen Zuerst muß definiert werden, welche Gruppen nun anhand welcher Variablen überprüft werden sollen.wir übernehmen das Beispiel der Clusteranalyse, mit deren Hilfe 23 Klimastationen Tunesiens in 2 Gruppen A u. B eingeteilt wurden. Diese Gruppierung soll nun anhand der 2 Variablen Niederschlag und Höhe über NN überprüft werden. Abb. 1: Trennung durch die Ausgangsvariablen x 1 und x 2. (Quelle: BAHRENBERG (1992): 319) 2.2 Formulierung der Diskriminanzfunktion (Trennfunktion) Gesucht wird nun eine Funktion, die die Gruppen optimal trennt. In Abb. 1 wurden die Häufigkeitsverteilungen der beiden Gruppen A (Dreiecke) und B (Kreise) jeweils auf die x 1 - bzw. x 2 -Achse projiziert, erkennbar sind rel. große Überschneidungsbereiche, d.h.: die Werte im Überschneidungsbereich Abb. 2: Trennung durch verschiedene Diskriminanzachsen (Quelle: BAHRENBERG (1992): 321) können weder Gruppe A noch Gruppe B definitiv zugeordnet werden. Die Variablen (die Achsen) x 1 u. x 2 sind also als Trennfunktionen nicht geeignet. Auch in Abb. 2 sind für die Funktionen Y* und Y** große Überschneidungsbereiche erkennbar, d.h.: unsaubere Trennung der beiden Gruppen. Funktion Y dagegen weist 3

keinerlei Überschneidungsbereich auf, eine Trenngerade kann eingezeichnet werden, die die Gruppen optimal trennt (Abb. 3), Y ist also die gesuchte Diskriminanzfunktion. Die Funktion läßt sich als Linearfunktion der beiden Merkmalsvariablen x 1 u. x 2 beschreiben mit der Gleichung Y = v1x1+ v2x. 2 Die Lage der Diskriminanzachse im Raum, also ihre Steigung, ist durch das Verhältnis x 2 v2 = v x 1 bestimmt. 1 Vereinfachend wird angenommen, die Gerade verlaufe durch den Ursprung. Die Diskriminanzkoeffizienten v 1 u. v 2 sind nun aufgrund der Daten der Merkmalsausprägungen zu schätzen. 2.3 Schätzung der Diskriminanzfunktion Wie oben ausgeführt, bedingt gute Trennung kleine Überschneidungsbereiche der Häufigkeitsverteilungen auf der Diskriminanzachse. Dieses kann mit Hilfe zweier Kriterien erreicht werden: 1. Maximierung der Streuung zwischen den Gruppen(max. der Abstände der Gruppenmittelpunkte auf der Diskriminanzachse): d = y y bzw. d y y A B = ( ) 2 2 A B 2. Minimierung der Streuung innerhalb der Gruppen: na nb 2 Aj A j = 1 j = 1 2 s y y y y = ( ) + ( ) Bj B Abb. 3: Trennung durch die Diskriminanzachse (Quelle: BAHRENBERG (1992): 321) 2 d Hieraus leitet sich das Diskriminanzkriterium wie folgt ab: Γ= max 2 s Durch Maximierung dieses Kriteriums, d.h. durch Maximierung des Abstandes zwischen den Gruppen und Minimierung der Abstände innerhalb der Gruppen sind die Bedingungen für einen möglichst kleinen Überschneidungsbereich 4

erfüllt. Nach partieller Differentiation von Γ nach v 1 und v 2 erhält man die Bestimmungsgleichungen, die zur Berechnung der Diskriminanzfunktion benötigt werden. Durch Einsetzen der Werte für x 1 u. x 2 in diese Gleichungen können die Werte für v 1 u. v 2 berechnet werden und erhält somit die gesuchte Geradengleichung. 2.4 Prüfung der Diskriminanzfunktion Bei der Prüfung der Diskriminanzfunktion wird deren Güte bzw. Trennkraft hinsichtlich der verschiedenen Gruppen untersucht. Dabei wird die Unterschiedlichkeit der Gruppen gemessen. Es gibt zwei Möglichkeiten, eine Diskriminanzfunktion zu messen: a) Vergleich mit kritischem Diskriminanzwert Für jedes Element j lässt sich ein Wert auf der Diskriminanzachse berechnen: y = v x + v x j 1 1j 2 2 j Diese errechneten Diskriminanzwerte werden nun mit einem sogenannten kritischen Diskriminanzwert verglichen. Dieser Wert ist bei zwei gleichgroßen Clustern nichts anderes als das arithmetische Mittel der Diskriminanzwerte y j : y t = y A + y 2 B Kritischer Diskriminanzwert arithmetisches Mittel von Cluster B arithmetisches Mittel von Cluster A Bei zwei unterschiedlich großen Clustern muss man das gewichtete arithmetische Mittel berechnen: 5

y t = n A y n A A + n + n B B y B Anzahl der Elemente von Cluster A Anzahl der Elemente von Cluster B Nachdem man nun den kritischen Diskriminanzwert errechnet hat, kann man die einzelnen Diskriminanzwerte in die Cluster einteilen. Diese Einteilung hängt davon ab, ob y j < y t oder y j > y t ist. Eine quantitative Aussage über die Trennkraft einer Diskriminanzfunktion läßt sich anhand einer sogenannten Klassifikationsmatrix treffen: Gruppenzugehörigkeit nach der Diskriminanzanalyse Cluster A Cluster B Vorgegebene Gruppenzugehörigkeit Cluster A 7 1 = 8 + (87,5%) (12,5%) + + + Cluster B 8 = 8 0 + (100%) = 7 + = 9 =16 Abb. 4: Klassifikationsmatrix einen Fallbeispieles (Quelle : BAHRENBERG (1999 ) : 328) Auf der sogenannten Hauptdiagonalen, im obigen Fall die hervorgehobenen Werte, sind die korrekt klassifizierten Elemente dargestellt. In diesem Fallbeispiel war also nur ein einziges Element falsch klassifiziert. Mit den richtig klassifizierten Elementen läßt sich jetzt die Trefferquote errechnen. Diese beträgt hier 93,75%. Diese Trefferquote sagt uns etwas über die tatsächliche Trennkraft der Diskriminanzfunktion aus. Wichtig: Nur wenn die Trefferquote größer als 50% ist, d.h. größer als nach dem Zufallsprinzip zu erwarten wäre, ist eine Diskriminanzfunktion von Nutzen. 6

b) Betrachtung des Diskriminanzkriteriums In diesem Fall bildet der Eigenwert (Maximalwert des Diskriminanzkriteriums) ein Maß für die Güte, bzw. Trennkraft einer Diskriminanzfunktion: γ = SS SS b w Eigenwert erklärte Streuung nicht erklärte Streuung Da der Eigenwert nicht auf Werte zwischen null und eins normiert ist, muss man sich andersweitig aushelfen. Es gibt zwei Möglichkeiten, diesem Problem aus dem Weg zu gehen. Die erste Möglichkeit ist die Berechnung des kanonischen Korrelationskoeffizienten: c = γ 1+ γ = SSb SS + SS b w Erklärte Streuung Gesamtstreuung In der Diskriminanzanalyse wird dieser Wert als Gütemaß verwendet. Das Besondere am kanonischen Korrelationskoeffizienten ist, dass dieser Wert im Zwei-Gruppen-Fall dem Bestimmtheitsmaß einer Regressionsanalyse entspricht. Wichtig: Je größer der kanonische Korrelationskoeffizient ist, desto höher ist die Trennkraft der Diskriminanzfunktion! Eine zweite Möglichkeit, dass man normierte Werte zwischen null und eins erhält, ist die Berechnung des sogenannten Wilks Lambda : 1 = = 1+ γ SSw SS + SS b w nicht erklärte Streuung Gesamtstreuung 7

Im Gegensatz zum kanonischen Korrelationskoeffizienten handelt es sich hierbei um ein inverses Gütemaß, d.h. je kleinere Werte Wilks Lambda annimmt, desto größer ist die Trennkraft einer Diskriminanzfunktion. Das Wilks Lambda ist laut BACKHAUS (2000) die gebräuchlichste Methode zur Prüfung einer Diskriminanzfunktion. Der Vorteil liegt darin, dass auch Signifikanztests über die Unterschiedlichkeit der Gruppen möglich sind. Dies wird im folgenden aber nicht weiter ausgeführt. Fazit: Erst wenn man eine geschätzte Diskriminanzfunktion hinsichtlich ihrer Trennkraft untersucht hat, kann man mit ihr weiter verfahren. Stellt man aber fest, dass ihre Trennkraft nicht sonderlich hoch ist, macht es keinen Sinn mit ihr z. B. neue Objekte zu klassifizieren (s.u.) oder, wie im folgenden dargestellt die Merkmalsvariablen zu überprüfen. 2.5 Prüfung der Merkmalsvariablen Hiebei will man überprüfen, welche der beiden Merkmalsvariablen einen größeren Einfluß auf die Einteilung der Cluster ausübt. Die Basis für die Beurteilung der Trennkraft der Variablen bilden die Diskriminanzkoeffizienten v, da sie den Einfluß einer Merkmalsvariable auf den Diskriminanzwert repräsentiert. Es gibt allerdings jetzt ein Problem: Die Koeffizienten werden von der Maßeinheit der Ausgangsvariablen beeinflußt, d.h. sie reagieren auf Skalierungen. Darum werden die Diskriminanzkoeffizienten mit den Standardabweichungen der entsprechenden Variablen multipliziert. Im folgenden wird die Formel für den standardisierten Diskriminanzkoeffizienten einer beliebigen Merkmalsvariablen 1, beispielsweise Niederschlag in mm, aufgestellt. Der Rechenvorgang für die dazugehörige Merkmalsvariablen 2 läuft entsprechend gleich ab. c = v s 1 1 x 1 Standardisierter Diskriminanzkoeffizient Diskriminanzkoeffizient Standardabweichung der Merkmalsvariablen 8

Durch diesen Rechenschritt sind die Diskriminanzkoeffizienten nun standardisiert, und man kann nun mit der Prüfung der Merkmalsvariablen fortfahren. Man hat nun für beide Cluster den standardisierten Korrelationskoeffizienten vorliegen. Nun vergleicht man beide Werte miteinander. Wichtig: Diejenige Merkmalsvariable, die einen größeren standardisierten Diskriminanzkoeffizienten hervorruft hat einen größeren Einfluß auf die Clustertrennung. Auf das Maß für den Einfluß auf die Trennung kann man schließen, wenn man den Unterschied der beiden Werte betrachtet: Je größer dieser zwischen den beiden Werten ist, desto ausgeprägter ist die Einflußnahme der Merkmalsvariablen mit dem größeren standardisierten Diskriminanzkoeffizienten. 2.6 Klassifizierung von Objekten Nachdem man nun die Diskriminanzfunktion, sowie auch die Merkmalsvariablen, überprüft hat, hat man nun die Möglichkeit mit Hilfe dieser neue Objekte zu klassifizieren, d. h. in eine der beiden Clustern einzuordnen. Dies erreicht man in dem, wie bei der Prüfung der Diskriminanzfunktion dargestellt, die Merkmalsvariablen des neuen Objektes in die Diskriminanzfunktion eingesetzt und der errechnete Wert mit dem schon bekannten kristischen Diskriminanzwert verglichen wird. Je nachdem ob der neue Diskriminanzwert größer oder kleiner als der kritische Diskriminanzwert ist, wird dieses neue Objekt in einen der beiden Cluster eingeteilt. 2.7 Mehr-Gruppen Mehr-Variablen-Fall Der in Praxis am häufigsten auftretende Fall ist nicht der oben beschriebene Zwei-Gruppen Zwei-Variablen-Fall, häufiger ist der Mehr-Gruppen Mehr- Variablen-Fall. Bei diesem Fall reicht eine Diskriminanzfunkion nicht mehr aus, um die Gruppen zufriedenstellend zu trennen. Nach der Ermittlung der ersten Diskriminanzachse sind in der Regel die Überlappungsbereiche so groß, daß 9

weitere Achsen bestimmt werden können, bei G Gruppen maximal G - 1 Diskriminanzachsen. Da die Anzahl der Diskriminanzfunktionen nicht höher sein sollte als die Anzahl der Merkmalsvariablen I, ist die maximale Anzahl der Diskriminanzfunktionen auf K = Min (G 1, I) festgelegt. Im Normalfall reichen jedoch zwei Diskriminanzfunktionen aus. Zur Beurteilung der Bedeutung der einzelnen Diskriminanzfunktion für das Trennverfahren wird der Eigenwertanteil jedes Eigenwertes EA k, der erklärte Varianzanteil verwendet: γ k EA k = γ + γ + γ + + γ 1 2 3... k mit k= 1, 2, 3,..., K Er gibt die durch die k-te Diskriminanzfunktion erklärte Streuung als Anteil der Gesamtstreuung an. Zur Klassifizierung von Objekten beim Mehr-Gruppen Mehr-Variablen-Fall gibt es mehrere Konzepte, unter anderem das Distanzkonzept und das Wahrscheinlichkeitskonzept. Beim Distanzkonzept wir ein Element derjenigen Gruppe zugeordnet, zu deren Gruppenmittelpunkt (Zentroid) es den geringsten Abstand hat. Das Wahrscheinlichkeitskonzept ist eine Weiterentwicklung des Distanzkonzepts. Dabei wird ein Element mit dem Diskriminanzwert y j derjenigen Gruppe g zugeordnet, bei der die Wahrscheinlichkeit p (g y j ) maximal ist. Die Klassifizierungswahrscheinlichkeit werden nach dem Bayes-Theorem bestimmt. 3 Fallbeispiel Tunesien Als Fallbeispiel sind 23 Klimastationen Tunesiens mit ihrer Höhe über NN und ihrem durchschnittlichen Jahresniederschlag ausgewählt worden. Sie wurden mittels Clusteranalyse in 2 Gruppen (A und B, siehe auch Abb. 4) eingeteilt: 10

STATION Höhe über NN (m) Niederschlag (mm) Gruppe Medjaz El-Bab 54 408 A Kelibia 82 434 A Soliman 12 458 A Grombalia 50 475 A Zaghouan 195 496 A Le Kef 665 509 A Souk El-Arba 143 449 A Maktar 934 490 A Thala 1.020 473 A Bizerba 02 625 A Beja 234 626 A Teboursouk 410 523 A Tabarka 12 1.029 A Ain-Draham 739 1.534 A Sousse 06 327 B Kairouan 68 286 B El Djem 112 267 B Gafsa 314 152 B Sfax 21 197 B Gabes 02 175 B Kebili 56 89 B Tozeur 46 89 B Metlaui 234 137 B Die nun folgenden Daten wurden mit SPSS 10 berechnet, das zur Ermittlung der Gruppenzugehörigkeit stets nach dem Verfahren für den Mehr-Gruppen Mehr- Variablen-Fall rechnet und die Klassifikation nach dem Wahrscheinlichkeitskonzept durchführt. Dabei ergibt sich die Diskriminanzfunktion y = 0,001 x 1 + 0,004 x 2. Die Güte der Trennfunktion kann anhand des kanonischen Korrelationskoeffizienten bestimmt werden, der im vorliegenden Fall 0,670 beträgt. Eine andere Abb. 5: Gruppierung der Klimastationen vor der Diskriminanzanalyse (Quelle: Eigener Entwurf) 11

Möglichkeit zur Feststellung der Trennkraft ist Wilks Lambda, das in unserem Fall einen Wert von 0,552 hat. Überprüft man nun die vorgegebene Gruppierung mit der errechneten Diskriminanzfunktion, so wird deutlich, das 2 Stationen falsch klassifiziert wurden: Die Stationen Medjaz El-Bab und Kelibia, die sich ursprünglich in der Gruppe A befanden, müssen nun in die Gruppe B einsortiert werden. Daraus ergibt sich nun folgende Klassifikationsmatrix: Vorgegebene Gruppenzugehörigkeit Gruppenzugehörigkeit nach der Diskriminanzanalyse Cluster A Cluster B Cluster A 12 + 2 = 14 + + Cluster B 0 + 9 = 9 = 12 = 11 Die Trefferquote, also der Prozentsatz der bereits richtig klassifizierten Stationen, beträgt in unserem Fall 91,3 %. Wie sich die Änderung der Klassifizierung geographisch auswirkt, zeigt Abb. 6. Abb. 6: Gruppierung der Klimastationen nach der Diskriminanzanalyse (Quelle: Eigener Entwurf) 12

4 Literaturverzeichnis Backhaus, K. et al.(2000 9 ): Multivariate Analysemethoden. Berlin, 90-163. Bahrenberg, G., E. Giese & J. Nipper (1992 2 ): Statistische Methoden in der Geographie Band 2: Multivariate Statistik. Stuttgart, 316-358. Rosner, H.-J. (1998 2 ): Verarbeitung Geographischer Daten: Methodische Bausteine zu Statistik ung GIS. Tübingen, 69 71. 13