I :~ Visualisieren von Korrelation mit Verteilungsdiagrammen. rametem, wählen wir standardisierte Normalverteilungen, d.h. p. = 0 und a' 1.

- 43 - Visualisieren vn Krrelatin mit Verteilungsdiagrammen - 44 - rametem, wählen wir standardisierte Nrmalverteilungen, d.h. p. = und a' 1. 1 vn Erich Neuwirth, Universität Wien Bearbeitung: Bemd Wllring, Universität Münster Zusammenfassung Bei der Diskussin der Krrelatin im Unterricht sind Beispiele vn Datensätzen nützlich, die :~ eine gegebene Krrelatin besitzen. Dieser Beitrag beschreibt eine Methde, mit Hilfe vn Verteilungsdiagrammen (spreadsheeds) die zugehörigen Punktwlken zu zeichnen und "Kn :~ fidenzgebiete" zu erhalten. Einführung n diesem Beitrag stellen wir eine Methde vr, um Punktwlken mit einem gegebenen Kr -1-2 relatinskeffizienten aus Zufallszahlen zu erhalten, s wie sie gewöhnlich mit Verteilungs -3 diagramm-prgrammen zu enthalten sind. n Frtführung dieser Methde können wir ebenfalls Graphen vn zugehörigen Knfidenzgebieten einzeichnen, die a.'lalytisch abgeleitet sind und den Zufallsdaten überlagert werden können. Betrachten wir den Graphen in Bild 1. Versuchen Sie bitte hne vrher weiterzulesen, den -4 i i -4-3 -2-1 2 3 4 Bild : Punktwlke, Krrelatinskeffizient bitte raten! Krrelatinskeffizienten der drt gezeichneten Punktwlke zu schätzen. Die Lösung wird am Ende des Beitrages verraten. War hre Schätzung einigermaßen brauchbar? Wir hffen, dieses Beispiel zeigt, daß es ein wichtiges Ziel ist, Schüler und Studenten zu befähigen, Krrelatinkeffizienten zu schätzen, und zwar hne irgendeine weitere rechnerische Tätigkeit. Benötigte mathematische Ergebnisse Beginnen wir mit dem einfachsten Fall. Wir möchten eine Stichprbe bivariater Daten haben, wbei die beiden Zufallsvariablen nicht krreliert sind. Um die Dinge s natürlich und einfach wie möglich zu gestalten, möchten wir die beiden Zufallsvariablen nrrnalverteilt haben. Da wir den Begriff der Krrelatin verdeutlichen wllen, und zwar mit möglichst wenig Pa- Wir verwenden eine der Standardmethden, um standardisierte nrmalverteilte Zufallsgrößen zu erhalten: Wir addieren zwölf Zufallszahlen, die aus einer Gleichverteilung auf dem ntervall [O,J stammen. Wie bekannt, hat diese Standard-Gleichverteilung die Varianz cl = 1112, s daß die Summe bereits die Varianz a' = besitzt. Um p. = zu erhalten, haben wir vn dieser Summe 6 zu subtrahieren. All dies kann sehr leicht in einem Verteilungsdiagramm-Prgramm durchgeführt werden, das einen Zufallsgeneratr besitzt, und zum Unterrichten vn Statistik sllte man nur slche Prgramme verwenden. Wir wllen nun die Auslegung des Verteilungsdiagrammes kurz zurückstellen und zunächst die benötigten theretischen Ergebnisse darlegen.

- 45 - Wir können als mit Hilfe des Zufallsgeneratrs eine Stichprbe vn zwei nichtkrrelierten Zufallsgrößen erzeugen. m nächsten Schritt wllen wir eine dritte Zufallsgröße knstruieren, die eine gegebene Krrelatin mit der ersten Zufallsgröße besitzt. Die Grundidee besteht darin, zu diesem Zweck eine Linearkmbinatin der ersten und der zweiten Zufallsgröße zu verwenden. S beginnen wir mit den standardisierten nrmalverteilten Variablen X und Y mit der Krrelatin und betrachten Z = Cl!X + ßY. Da swhl X als auch Y den Erwartungswert haben, gilt dies auch für Z. Für die Varianz vn Z gilt: - 46 - gaben vn p und y~. s daß unser Verteilungsdiagramm wie Tabelle au~sehen kann. x rh sqrt (1 - rh' 2) Crrelatin visualised -1.14 -.64 y.65.76 z -1.23 u'(z) ry u'(x) + ß' u'(y) + 2 Cl! ß cv(x, Y) Wegen d(x) = u'(y) = 1 und cv (X;Y) = flgt: Tabelle : Beispiel zur Auslegung des Verteilungsdiagramms u'(z) = Cl!' + ß' Ferner gilt: cv(x,z) Cl! cv(x,x) + ß cv(x, Y) bestimmen. Um alle Zeichnungen, die wir herstellen wllen, vergleichbar zu machen, wählen wir Cl! und ß s, daß u'(z) = 1 entsteht. Daher müssen wir ß =./(1 - ry) wählen. Unser Endergebnis besteht darin, daß wir für zwei standardisierte nicht krrelierte Zufallsgrößen X und Y die neue Zufallsgröße Z = p X +./(1 - p') Y erhalten, die ebenfalls standardisiert ist und mit der Zufallsgröße X den Krrelatinskeffizienten p besitzt. Auslegung des Verteilungsdiagramms Der wichtigste Teil unseres Verteilungsdiagramms sind die Spalten der Tafel mit den Werten der Zufallsgrößen X, Y und Z. Für jeden Wert vn X bzw. Y benötigen wir zwölf Zufallszahlen aus dem ntervall [,1]. Diese Zahlen sind nur Zwischenergebnisse für unsere Zwecke, s daß sie nicht unbedingt sichtbar in dem Diagramm auftreten müssen. Die zwei ersten Spalten können die Werte für X und Y enthalten, wie wir sie aus diesen Zufallszahlen bestimmen, die dritte Spalte kann. die Werte für Z enthalten. Wir benötigen ebenfalls die An- Der Term v'(! - p') sllte als Frmel dargestellt sein, s daß seine Beziehung zu p unmittelbar zu sehen ist. Die Darstellung der Spalten X und Y entsteht aus den nicht dargestellten Teilen des Verteilungsdiagramms. den 24 Zufallszahlen in jeder Zeile. Die Felder mit den Werten p und v'(! - p') sllten mit entsprechenden Namen gekennzeichnet sein, und die Frmeln zu der Z-Spalte sllten indirekt auf die Spalten X und Y bezgen sein und direkt auf p und v'(! _ p'). Die Spalten X und Z sllten als die Datenhereiche fur die Punktwlke bezeichnet werden. im Verteilungsdiagramm-Prgramm ft bezeichnet als X -Y-Zeichnung (!). wbei in der Graphik nur Symble benutzt werden sllten, die die Datenpunkte verbinden, und keine Linien. Um vergleichbare Graphiken zu erhalten, sllten die Minima und Maxima der Werte fur die X- und Y-Bereiche vn Hand gesetzt werden. Die Zahl der benutzten Datenpunkte ist sehr wichtig, um einen Eindruck davn zu vermitteln, daß man wirklich mit einem statistischen Ensemble arbeitet und nicht nur mit ein paar Punkten. Man sllte mindestens 1 Punkte benutzen. Auf regulären Persnal-Cmputern kann man mit Hilfe vn Verteilungsdiagramm-Prgrammen hne Prbleme 2 Punkte erstellen. Alle Graphiken in diesem Beitrag sind mit Hilfe vn 2 Datenpunkten und der angegebenen Methde erstellt.

- 47 - Das hier verwendete Prgramm für die Verteilungsdiagramme ist s rganisiert, daß jeweils nach Eingabe des betreffenden Wertes für p und Verabschieden durch Tastendruck das Prgramm eine Punktwlke mit dieser gegebenen Krrelatin zeichnet. Wenn wir die theretischen Ergebnisse aus dem letzten Abschnitt nicht verwenden wllen, können wir ebens den empirischen Krrelatinskeffizienten mit den Funktinen des Verteilungsdiagrammes berechnen. Wir können auf diese Weise den Mechanismus zur Berechnung vn Z gewissermaßen verstecken und empirisch prüfen. wie die Daten für einen gegebenen Krrelatinskeffizienten aussehen. Es sllte nicht zu schwierig sein, unser Verteilungsdiagramm-Prgramm für die gegebene empirische Krrelatin aufzubauen. n dem Beitrag vn Lageard (1988) wird gezeigt, wie dies durchzuführen ist. - 48-4 ~------------------------------------------. 3J Betrachten wir nun zwei Beispiele, die Bilder 2 und 3. 4~-----------------------------------; 3 2 <31> -1-2 -3 <> %~<f8~~ <:1> ~~~ r""~ <p' <X6 {><j) (ß ~ '$ <) ~ ~ (j ~ 8 8 ~ <9 O<j)~ g :P -4-4 -3-2 -1 2 3 4 Bild 2 : Punktwlke mit p =.5 Bild 3 : Punktwlke mit p =.95 Diese Beispiele zeigen, daß eine Krrelatin vn p =.5 nicht immer zu einer Zeichnung gehört, die man hne weiteres als funktinale Abhängigkeit interpretieren würde. Beim Experimentieren mit verschiedenen Werten vn p kann man die graphische Darstellung vn beliebig vielen Datenmengen untersuchen, und man findet eine Menge verschiedener Graphiken fest, die zeigen, weche unterschiedlichen nterpretatinen vn Krrelatinskeffizienten möglich sind. An dieser Stelle ist auf einen wichtigen Punkt hinzuweisen : Zufallszahlen-Generatren in den meisten üblichen Prgrammen auf Persnal-Cmputern sind nicht s gut, wie Statistiker sie gerne hätten. Besnders dann, wenn es um Prbleme mit Dimensinen größer als geht, zeigen sich diese Schwächen. S ist es auch bei unserem Prgramm zum Verteilungsdiagramm. (Wir haben das Prgramm ASEASYAS 3.1a benutzt.) Die Krrelatin zwischen

- 49 - den Daten X und Y, die ja als unkrreliert angenmmen werden, erwies sich als -.14. Man kann dieses Prblem allerdings überwinden, indem man den empirischen Krrelatinskeffizienten zwischen X und Z berechnet und dann das theretisch vrgegebene p ändert, um s den angestrebten Wert für die empirische Krreiatin zu erhalten. Andererseits ist der Unterschied zwischen dem theretischen und dem empirischen Wert hinreichend klein, um unsere Prgramme zu den Verteilungsdiagrammen für die genannten Zwecke nach wie vr als brauchbar anzusehen. Überlagern der Daten mit Knfidenz-Ellipsiden Um eine Beziehung zwischen den "Zufallsdaten" und den theretischen Verteilungen darzustellen, ist es ganz nützlich, ein Knfidenz-Ellipsid für die zweidimensinale Nrmalverteilung darzustellen und dieses der "Punktwlke" zu überlagern, um s ihre relativen Lagen miteinander zu vergleichen. Die Berechnung dieses Ellipsids ist recht einfach, falls für die theretische Verteilung p = ist. n diesem Fall ist das Gebiet einfach ein Kreis, und es ist ebenfalls leicht, den Radius dieses Kreises zu berechnen. Wenn X und Y unkrrelierte Standardnrmalverteilungen sind, dann flgt X' + Y' einer x'-verteilung mit zwei Freiheitsgraden. S ist das Knfidenzgebiet für das Knfidenzniveau y durch die Ungleichung 4~ 3-5 - 2 () -1 ~ %~~ ~ ~ i'~ cqo 8" 6> 1»9 6> <:J'X)... t OOOO <) 8 ~!9$ ~ ~~ t~~ 6> 6> ~'e " «;> ~ -"2 -:> -:1 :> -, ~! - 1 -:1-2 - 2 3.. Bild 4 : Punktwlke mit p =. gegeben, wbei C y das y-quantil der X'-Verteilung mit zwei Freiheitsgraden ist. Da bekanntlich die x'-verteilung mit zwei Freiheitsgraden eine Expnentialverteilung mit Mittelwert 2 ist, kann man leicht zeigen, daß das Radiusquadrat C y des Knfidenzbereiches durch flgende Frmel gegeben ist : C y -2ln(1-y) S erhalten wir für y =.95 den Wert C y = 5.99. Mit Hilfe dieser Gleichung und durch Einzeichnen der Datenpunkte und des Kreises erhalten wir schließlich Bild 4. die meisten Punkte überdeckt, und das Ellipsid sind. Man kann ferner den Anteil der Datenpunkte prüfen, die außerhalb des Ellipsides liegen, das in diesem Fall ein Kreis ist, und ihn mit dem theretischen Wert 5 % vergleichen. Das Berechnen der Ellipse wird ein bißchen schwieriger für den Fall, daß die Krrelatin ungleich ist. Mit Hilfe einiger einfachen Rechnungen kann man jedch die benötigten Ergebnisse herleiten. Nehmen wir als an, wir haben standardisierte nrmalverteilte Zufallsgrößen X und Y mit der Krrelatin p. Wir definieren die Zufallsgröße W wie flgt : Bei genauerer Betrachtung dieses Bildes kann man prüfen, wie ähnlich sich das Gebiet, das W (X - pz) / "n _ p')

- 51 - Dann ist W nicht mit Z krreliert, denn es gilt : cv(w,z) (l/v'(1-p'» cv(x,z) (p/v'(l-p')) cv(z,z) Daher hat der Knfidenzkreis für die aus W und Z zusammengesetzte Verteilung den Radius w + r :5 C,. - 52 - Diese Punkte können wir verwenden. um die Ellipse zu zeichnen. Wir haben lediglich die erste Spalte als x-werte zu markieren und die zweite Spalte als y, um einen (x,y)-graphen zu erhalten und mit Hilfe des Graphikprgrammes die Punkte dieses Graphen miteinander zu verbinden, hne Symble an diesen Punkten zu zeichnen. Wenn wir die explizite Frmel für C, verwenden, können wir sgar Knfdenzellipsen für verschiedene Knfdenzniveaus zeichnen. Mit Hilfe der Defnitin vn W können wir diesen Knfdenzkreis für die zusammengesetzte Verteilung (W,Z) in ein Knfidenzellipsid für die zusammengesetzte Verteilung (X,Z) transfrmieren. Es gilt: Schließlich können wir den Ellipsengraphen und die Punktwlken überlagern. Führt man alle ntwendigen Schritte für p =,65 und y =.25..5,.75 und.9 durch, s entsteht Bild 5. ( (x - pz)' / (1 - p') ) + r :5 C, 4 (x - pz)' :5 (1 - p') (C, - r) x :5 pz ± v'( (1 - p') (C, - Z') ) Wir können diese Gleichung verwenden, um das Knfidenzellipsid in unser Verteilungsdiagramm einzuzeichnen. 31 :j Dazu führen wir eine neue Spalte ein, die äquidistante Werte Xl vn - C, bis + C, enthält und eine zweite Spalte mit den Werten X, PX - v' ( ( - p') (C, - x/) ), - -2 die den unteren Rand dieses Ellipsides ergeben. Dann setzen wir die erste Spalte frt, indem wir vn + C, auf - C, zurückgehen, die entsprechenden Xl-Werte wieder äquidistant auftragen und dazu die zweite Spalte jetzt mit -3 : -, -4-3 -2-1 2 3 4 Bild 5 : Punktwlke mit p =.65 X, = PX + v' ( ( - p') (C, - Xl') ), die den beren Rand des Ellipsides ergeben. Didaktische Bemerkungen Es ist ganz klar, daß einige Teile der theretischen Herleitung jenseits des Anspruchs liegen,

- 53 - der für einen grßen Teil der Schüler und Studenten realisierbar ist, für die das Visualisieren vn KrrelatinskeffZienten eine sinnvlle Übung wäre. Diese Tatsache schließt allerdings nicht ein, daß das Verteilungsdiagramm wie hier beschrieben nicht mit slchen Schülern der Studenten zusammen verwendet werden kann. Es ist im wesentlichen eine Sache des Lehrers zu entscheiden, welche theretischen Knzepte und Rechnlli'lgen er zur Knstruktin dieses Verteilungsdiagrammes vrstellt, welche er mit den Schülern bearbeitet und welche er nicht erwähnt. Man kann sich sehr verschiedene Gebrauchsfrmen dieses Verteilungsdiagrammes vrstellen. Die einfachste Methde würde sein, geradewegs den Rechner zu benutzen und eine Prjektin herzustellen, um s interaktiv mit der Zeichnung der zweidimensinalen Verteilung zu arbeiten. n diesem Fall könnte man die Therie vllständig verstecken und nichts weiter zeigen, als eine Flge vn Zeichnungen, die zu bestsimmten Krrelatinswerten gehören. Die am meisten frtgeschrittene Methde könnte darin bestehen, au die hier vrgestellten Begriffe und Frmeln herzuleiten, um auf diese Weise zu zeigen, wie statistische Therie zur Knstruktin statistischer Hilfsmittel verwendet wird. Der Hauptvrteil der Verwendung vn Verteilungsdiagrammen zum Visualisieren vn Krrelatinen ist der, daß das Verteilungsdiagramm letztlich - s sllte es wenigstens sein - ein fertig verwendbares Werkzeug ist, wenn man Statistik unterrichtet. Der Autr wllte ebenfalls darlegen, daß Verteilungsdiagramme nicht nur zur Analyse bereits bestehender Daten verwendet werden können, sndern ebens zur Herstellung vn Daten, die bestimmte ""ichtige statistische Zusammenhänge erläutern können. Und nun abschließend die Antwrt auf die Frage zu Beginn des Beitrages. Die in Bild 1 gezeichnete Datenmenge hat den Wert p =.65. Literatur LAGEARD, J. L. : Using a Spreadsheet t Teach Cding f Bivariate Data.- Teaching Statisties, io (1988), vl.1, S. 2-22