2 Datenbeschreibung Ihr Sparbuch ist gefüllt! Da Sie etwas Geld übrig haben, möchten Sie es anlegen. Sie gehen deshalb zu Ihrer Bank und lassen sich beraten. Was halten Sie von Fonds? Auf diese Frage Ihres Bankberaters wissen Sie keine Antwort. Er stellt Ihnen vier Fonds vor: den Super Fonds Invest, den Super Fonds Invest Classic, den Sicher Fonds Premium und den Fonds Deutschland. Sie stellen fest, dass diese verschiedene Eigenschaften besitzen. Bevor Sie sich zum Kauf entscheiden, bitten Sie Ihren Bankberater um ein wenig Zeit, damit Sie sich über die Fonds informieren können. Um einen Überblick zu bekommen, tragen Sie einige Merkmale der Fonds in eine Tabelle ein (Tabelle 2.1): das Fondsvermögen, den Fondstypen sowie verschiedene Analysteneinschätzungen (Buy, Hold und Sell). Tabelle 2.1 Übersicht über vier vorgeschlagene Fonds Fondsname Fondsvermögen Fondstyp Analysteneinschätzung Super Fonds Invest 2.828 Mio. EUR Dachfonds B; H; B; B; H Super Fonds Invest Classic 2.480 Mio. EUR Dachfonds B; B; H; S; H Sicher Fonds Premium 2.703 Mio. EUR Rentenfonds B; B; H; S; S Fonds Deutschland 2.954 Mio. EUR Aktienfonds S; S; H; H; H In welchen der Fonds sollten Sie investieren 1? Um diese Frage zu beantworten, werden wir im Folgenden zunächst in Abschnitt 2.1 verschiedene Möglichkeiten der Datendarstellung kennenlernen. Anschließend stellen wir in den Abschnitten 2.2, 2.3 und 2.4 verschiedene Lage- und Streuungsmaße vor, und wir beschäftigen uns mit der Schiefe, Wölbung und Multimodalität. Nachdem wir uns in diesen Abschnitten mit der Geldanlage in Fonds befasst haben, werden wir uns in Abschnitt 2.5 mit der Verteilung von Geld auseinandersetzen und die Konzentration in Daten analysieren. Schließlich werden wir in Abschnitt 2.6 verschiedene Indexzahlen, wie Preisindices, besprechen. Zum Schluss wird in Abschnitt 2.7 ein Steckbrief der wesentlichen Formeln und Methoden angegeben, Abschnitt 2.8 enthält Fallstudien und Übungsaufgaben und in Abschnitt 2.9 werden Literatur- und Softwarehinweise aufgeführt. 2.1 Datendarstellung Um die Frage nach der Auswahl eines Fonds zu beantworten, möchten Sie sich als erstes einen Überblick über die Daten verschaffen. Warum nicht mit einer Abbildung? Die Idee eines Schaubildes gefällt Ihnen. Sie beschließen mit dem nominal skalierten Merkmal Fondstyp zu beginnen. Dazu schauen Sie sich die Daten in der Tabelle 2.1 genauer an. 1 In diesem Buch werden statistische Methoden vorgestellt, die für einen Fondskauf nützlich sein könnten. Aus didaktischen Gründen konzentrieren wir uns nur auf die statistischen Methoden. Bei einer Kaufentscheidung sollten aber noch andere Eigenschaften beachtet werden, wie etwa die Fondsstrategie und die (teilweise sehr hohen) Gebühren. Die in diesem Buch vorgestellten Fonds sind frei erfunden. K. Lübke, M. Vogt, Angewandte Wirtschaftsstatistik, FOM-Edition, DOI 10.1007/978-3-658-02804-6_2, Springer Fachmedien Wiesbaden 2014 17
18 Datenbeschreibung Diese liegen in Form einer Urliste vor. In einer Urliste sind die Daten noch nicht bearbeitet oder aufbereitet worden. Als Erstes möchten Sie darstellen, wie häufig jeder Fondstyp vorkommt. In einer Urliste sind die Häufigkeiten nur schwer zu erkennen, insbesondere wenn diese sehr viele Einträge besitzt. Einfacher wäre es, eine Tabelle anzugeben, welche die Häufigkeiten direkt enthält. Das ist genau die Idee einer Häufigkeitstabelle. Sie erstellen diese für den Fondstypen (siehe Tabelle 2.2). Dabei gibt die absolute Häufigkeit in der mittleren Spalte die Anzahl der je Ausprägung vorkommenden Beobachtungen an. Da die Ausprägung Dachfonds zweimal auftritt (Super Fonds Invest und Super Fonds Invest Classic) ist die absolute Häufigkeit 2: Die relative Häufigkeit in der rechten Spalte gibt die absolute Häufigkeit geteilt durch die Gesamtanzahl der Beobachtungen an. Da zwei der insgesamt vier Fonds Dachfonds sind, ist die relative Häufigkeit 0,5 also 50%. Tabelle 2.2 Häufigkeitstabelle des Merkmals Fondstyp Fondstyp Absolute Häufigkeit Relative Häufigkeit Dachfonds 2 0,5 Rentenfonds 1 0,25 Aktienfonds 1 0,25 2.1.1 Kreisdiagramm Wie können Sie nun die relativen oder absoluten Häufigkeiten mittels einer Abbildung verdeutlichen? Beim sonntäglichen Kuchenessen kommt Ihnen in den Sinn, die Daten wie die Stücke einer Torte zu zeichnen. Das ist genau die Idee eines Kreis- oder Tortendiagramms. Aber wie sollten die Stücke aufgeteilt werden? Sie erinnern sich, dass der komplette Winkel in einem Kreis 360 beträgt. Können Sie diesen Winkel dann nicht nach der relativen Häufigkeit aufteilen? Damit ergibt sich für den Winkel der i-ten Ausprägung: Winkel i = 360 relative Häufigkeit i. Für die Fondstypen aus Tabelle 2.1 sind die relativen Häufigkeiten 50% Dachfonds und je 25% Aktien- und Rentenfonds. Für Dachfonds ergibt sich somit ein Winkel von: Winkel Dachfonds = 360 2 4 = 360 0,5 = 180 und für Aktien- und Rentenfonds von je 90. Stolz zeichnen Sie Ihr erstes Kreisdiagramm (siehe Abbildung 2.1). Der Radius des Kreises ist dabei beliebig, da sich bei einer Veränderung des Radius die Winkel nicht ändern. Kreisdiagramme sind besonders für nominal und ordinal skalierte Merkmale geeignet. Für (stetige) metrische Merkmale mit zahlreichen Ausprägungen kann das Kreisdiagramm allerdings unübersichtlich bzw. nicht aussagekräftig sein, da dann die Winkel unter Umständen sehr klein werden können.
Datendarstellung 19 Abbildung 2.1 Kreisdiagramm des Merkmals Fondstyp Aktienfonds 25% Rentenfonds 25% Dachfonds 50% 2.1.2 Säulendiagramm Motiviert durch Ihre Erfahrungen überlegen Sie sich mögliche weitere Darstellungsarten. Wäre es nicht möglich, die Häufigkeiten statt in einem Kreis als Säulen abzubilden? Das ist das Grundprinzip eines Säulendiagramms. In einem Säulendiagramm wird die Höhe der Säulen durch die absolute oder relative Häufigkeit angegeben (siehe Abbildung 2.2). Damit ist dieses Diagramm höhenproportional. Abbildung 2.2 Säulendiagramm des Merkmals Fondstyp 2 1 0 Dachfonds Rentenfonds Aktienfonds Absolute Häufigkeit Es gibt verschiedene Möglichkeiten, Häufigkeiten als Säulen darzustellen. Sind diese sehr schmal wird das Diagramm auch als Stabdiagramm bezeichnet. Falls die Säulen wie in Abbildung 2.3 horizontal angeordnet sind, wird es als Balkendiagramm bezeichnet.
20 Datenbeschreibung Abbildung 2.3 Balkendiagramm des Merkmals Fondstyp Aktienfonds Rentenfonds Dachfonds 0 1 2 Absolute Häufigkeit 2.1.3 Polygonzug Die bisherigen Diagramme sind vor allem für diskrete, insbesondere nominal und ordinal skalierte Merkmale mit wenigen verschiedenen Ausprägungen geeignet. Wie können Merkmale mit potenziell vielen verschiedenen Ausprägungen, wie metrischen Merkmalen, dargestellt werden? Das möchten Sie herausfinden. Da die Tabelle 2.1 nur wenige Ausprägungen enthält, beschließen Sie einen etwas größeren Datensatz aus der Finanzwelt zu untersuchen, und zwar die Werte des DAX 2, sowie die prozentualen monatlichen Veränderungen, die Renditen (siehe Tabelle 2.3). Bei dem DAX interessiert Sie vor allem die zeitliche Entwicklung des Index sowie die Entwicklung der monatlichen Renditen. Um diese Entwicklungen zu analysieren, haben Sie den DAX sowie die Renditen in Abbildung 2.4 als Polygonzug dargestellt. Bei einem Polygonzug werden die Beobachtungen linear miteinander verbunden. Damit lassen sich diese Entwicklungen sehr übersichtlich darstellen. 2 DAX = Deutscher Aktienindex
Datendarstellung 21 Tabelle 2.3 Deutscher Aktienindex und monatliche Renditen; Datenquelle: Deutsche Bundesbank (2013) Datum DAX Rendite Datum DAX Rendite Datum DAX Rendite Sep. 04 3.892,9 4,19% Jul. 07 7.584,14 5,28% Mai 10 5.964,33 2,79% Okt. 04 3.960,25 1,73% Aug. 07 7.638,17 0,71% Jun. 10 5.965,52 0,02% Nov. 04 4.126,0 4,19% Sep. 07 7.861,51 2,92% Jul. 10 6.147,97 3,06% Dez. 04 4.256,08 3,15% Okt. 07 8.019,22 2,01% Aug. 10 5.925,22 3,62% Jan. 05 4.254,85 0,03% Nov. 07 7.870,52 1,85% Sep. 10 6.229,02 5,13% Feb. 05 4.350,49 2,25% Dez. 07 8.067,32 2,50% Okt. 10 6.601,37 5,98% Mrz. 05 4.348,77 0,04% Jan. 08 6.851,75 15,07% Nov. 10 6.688.49 1,32% Apr. 05 4.184,84 3,77% Feb. 08 6.748,13 1,51% Dez. 10 6.914,19 3,37% Mai 05 4.460,63 6,59% Mrz. 08 6.534,97 3,16% Jan. 11 7.077,48 2,36% Jun. 05 4.586,28 2,82% Apr. 08 6.948,82 6,33% Feb. 11 7.272,32 2,75% Jul. 05 4.886,5 6,55% Mai 08 7.096,79 2,13% Mrz. 11 7.041,31 3,18% Aug. 05 4.829,69 1,16% Jun. 08 6.418,32 9,56% Apr. 11 7.514,46 6,72% Sep. 05 5.044,12 4,44% Jul. 08 6.479,56 0,95% Mai 11 7.293,69 2,94% Okt. 05 4.929,07 2,28% Aug. 08 6.422,3 0,88% Jun. 11 7.376,24 1,13% Nov. 05 5.193,4 5,36% Sep. 08 5.831,02 9,21% Jul. 11 7.158,77 2,95% Dez. 05 5.408,26 4,14% Okt. 08 4.987,97 14,46% Aug. 11 5.784,85 19,19% Jan. 06 5.674,15 4,92% Nov. 08 4.669,44 6,39% Sep. 11 5.502,02 4,89% Feb. 06 5.796,04 2,15% Dez. 08 4.810,2 3,01% Okt. 11 6.141,34 11,62% Mrz. 06 5.970,08 3,00% Jan. 09 4.338,35 9,81% Nov. 11 6.088,84 0,85% Apr. 06 6.009,89 0,67% Feb. 09 3.843,74 11,40% Dez. 11 5.898,35 3,13% Mai 06 5.692,86 5,28% Mrz. 09 4.084,76 6,27% Jan. 12 6.458,91 9,50% Jun. 06 5.683,31 0,17% Apr. 09 4.769,45 16,76% Feb. 12 6.856,08 6,15% Jul. 06 5.681,97 0,02% Mai 09 4.940,82 3,59% Mrz. 12 6.946,83 1,32% Aug. 06 5.859,57 3,13% Jun. 09 4.808,64 2,68% Apr. 12 6.761,19 2,67% Sep. 06 6.004,33 2,47% Jul. 09 5.332,14 10,89% Mai 12 6.264,38 7,35% Okt. 06 6.268,92 4,41% Aug. 09 5.464,61 2,48% Jun. 12 6.416,28 2,42% Nov. 06 6.309,19 0,64% Sep. 09 5.675,16 3,85% Jul. 12 6.772,26 5,55% Dez. 06 6.596,92 4,56% Okt. 09 5.414,96 4,58% Aug. 12 6.970,79 2,93% Jan. 07 6.789,11 2,91% Nov. 09 5.625,95 3,90% Sep. 12 7.216,15 3,52% Feb. 07 6.715,44 1,09% Dez. 09 5.957,43 5,89% Okt. 12 7.260,63 0,62% Mrz. 07 6.917,03 3,00% Jan. 10 5.608,79 5,85% Nov. 12 7.405,5 2,00% Apr. 07 7.408,7 7,11% Feb. 10 5.598,46 0,18% Dez. 12 7.612,39 2,79% Mai 07 7.883,04 6,40% Mrz. 10 6.153,55 9,92% Jan. 13 7.776,05 2,15% Jun. 07 8.007,32 1,58% Apr. 10 6.135,7 0,29%
22 Datenbeschreibung Abbildung 2.4 Polygonzug des DAX sowie der monatlichen Renditen DAX 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 Zeit 0,2 0,15 0,1 DAX-Renditen 0,05 0-0,05-0,1-0,15-0,2-0,25 Zeit 2.1.4 Stamm-Blatt-Diagramm Der Polygonzug (siehe Abschnitt 2.1.3) zeigt sehr schön die Entwicklung des DAX bzw. der monatlichen Renditen. Damit können Sie sehen, wie stark dieser Index schwankt. Fasziniert überlegen Sie weiter: Gibt es auch eine Möglichkeit darzustellen, wie viele Renditen aus Tabelle 2.3 bei etwa 0% liegen und wie viele bei etwa 19%? Das ist eine gute Frage. Wie können Sie diese beantworten? Sinnvoll wäre es zunächst die Renditen aufsteigend, von klein nach groß, zu sortieren, um einen Überblick zu erhalten. Anschließend schauen Sie sich einzelne Renditen genauer an: 19,2%, 15,1%, 9,5% oder 9,9%. Renditen um 19% kommen also nur einmal vor, Renditen um 9% jedoch zweimal. Das bringt Sie auf eine Idee. Wäre es nicht möglich, zunächst nur die Renditen ohne Nachkommastellen untereinander zu schreiben, und diese anschließend gerundet auf eine Stelle nach dem Komma zu notieren? Das probieren Sie aus (siehe Abbildung 2.5). Damit haben Sie das Stamm-Blatt-Diagramm gezeichnet. Dieses Diagramm besteht aus zwei Teilen. Auf der linken Seite von den senkrechten Strichen steht jedes Mal die Zahl vor
Datendarstellung 23 Abbildung 2.5 Stamm-Blatt-Diagramm der DAX-Renditen -19 2-0 99322000-18 0 06677-17 1 013367-16 2 001112445558888999-15 1 3 00011245699-14 5 4 124469-13 5 1459-12 6 01334567-11 4 7 1-10 8-9 862 9 59-8 10 9-7 3 11 6-6 4 12-5 933 13-4 96 14-3 86221 15-2 998773 16 8-1 9521 dem Komma. Die Nachkommastellen stehen auf der rechten Seite. Dabei sind diese aufsteigend sortiert und hintereinandergeschrieben. Das bedeutet etwa, dass es zwei Renditen um die 9% gibt: Eine ist 9,5% und die andere 9,9%. Dadurch erhalten Sie einen Überblick in welchem Bereich sich die meisten Renditen befinden. Für dieses Diagramm gibt es verschiedene Darstellungsmöglichkeiten, so kann etwa der Stamm verschoben werden und zum Beispiel nach der ersten Kommastelle stehen, oder es könnte nur jede zweite Zahl links von dem Stamm stehen, um die Abbildung übersichtlicher zu gestalten. 2.1.5 Histogramm Das Stamm-Blatt-Diagramm aus Abschnitt 2.1.4 hat den Nachteil, dass es recht unübersichtlich groß wird, falls die Daten weit streuen. Dann können Sie nicht jede Zahl vor dem Komma auf dem Stamm darstellen. Deshalb suchen Sie noch nach einer weiteren Darstellungsart. Wenn der Datensatz recht groß ist, mit vielen verschiedenen Ausprägungen, dann wäre es doch geschickt die Daten zusammenzufassen und zum Beispiel zu klassieren/gruppieren. Die Idee gefällt Ihnen, und Sie beschließen diese weiter zu entwickeln. Dazu ordnen Sie in Tabelle 2.4 die DAX-Renditen jeweils einem Intervall zu und geben zudem die relativen und absoluten Häufigkeiten an. Die Klassenbreite haben Sie dabei nicht überall gleich groß gewählt. Da an den Rändern weniger Beobachtungen vorliegen, reicht Ihnen dort eine gröbere Einteilung. Durch die
24 Datenbeschreibung unterschiedlichen Breiten ist es nun aber nicht angebracht, die Höhen als Häufigkeiten zu zeichnen, wie dies bei einem Säulendiagramm (siehe Abschnitt 2.1.2) getan wird. Neben der Höhe muss auch die Breite der Klassen berücksichtigt werden! Das ist genau die Idee eines Histogramms. Das Histogramm ist flächenproportional, was bedeutet, dass die Fläche und nicht die Höhe der relativen oder absoluten Häufigkeit entspricht. Dadurch werden die unterschiedlichen Breiten der Klassen berücksichtigt. Tabelle 2.4 Klassierte DAX-Renditen Klasse Anzahl n j Breite Höhe 4/101 [ 0,2; 0,1[ 4 0,1 0,1 = 0,396 8/101 [ 0,1; 0,05[ 8 0,05 0,05 = 1,584 [ 0,05; 0[ 25 0,05 4,95 [0; 0,05[ 46 0,05 9,110 [0,05; 0,1[ 15 0,05 2,970 [0,1; 0,2[ 3 0,1 0,297 Wie kann denn nun die Fläche konkret berechnet werden? Sie überlegen, dies anhand eines Beispiels der Klasse [ 0,2; 0,1[ mit vier Renditen. Als Erstes ermitteln Sie die Breite: 0,1 ( 0,2) =0,1. Ihr Ziel ist die Fläche (Höhe mal Breite) so zu wählen, dass diese der relativen Häufigkeit von 4/101 = 0,0396 entspricht. Dazu muss die Höhe genau dem prozentualen Anteil geteilt durch die Breite, also 4/101 0,1 = 0,396 entsprechen (siehe Abbildung 2.6). Durch diese Vorgehensweise beträgt die Summe der Flächen genau 100%. Die geringe Höhe der ersten Klasse in Abbildung 2.6 ergibt sich dadurch, dass der prozentuale Anteil halb so groß ist wie in der zweiten Klasse und zudem doppelt so breit ist. Stolz zeigen Sie das Ergebnis Ihrer Überlegungen einer Freundin. Diese ist fasziniert von der Idee, fragt sich aber, wieso Sie genau diese Klassengrenzen festgelegt haben. In der Tat haben Sie für Ihr erstes Histogramm die Klassen recht willkürlich gebildet. Abends grübeln Sie noch ein wenig darüber nach. Nach welchen Kriterien sollten Klassen generell gewählt werden? Dazu fallen Ihnen verschiedene Punkte ein, welche Sie noch vor dem Einschlafen notieren: Die Klassen dürfen sich nicht überlappen. Es muss entschieden werden, ob gleiche oder ungleiche Klassenbreiten gewählt werden. In vielen Anwendungen sind gleiche Klassenbreiten von Vorteil. Dies ist aber nicht immer sinnvoll oder möglich. Klassen sollten so gewählt werden, dass keine offenen Klassen vorkommen. Falls ein Datensatz offene Klassen enthält, müssen diese zur Zeichnung des Histogramms geschlossen werden, indem ein möglichst plausibler Randpunkt festgelegt wird. In Anwendungen kommen offene Klassen jedoch recht häufig vor, so wird etwa bei der Frage nach dem Einkommen häufig die Klasse mehr als x Tausend Euro Einkommen gewählt. Bezüglich der Anzahl der Klassen bzw. der Wahl der Klassenbreite gibt es keine eindeutige Regel (Krämer, 1992, S. 23). Manche Autoren geben jedoch Faustregeln an, etwa (Mosler und Schmid, 2009, S. 54) oder (Schlittgen, 2012, S. 19).
Datendarstellung 25 Abbildung 2.6 Histogramm der DAX-Renditen Häufigkeitsdichte 0 2 4 6 8 0.2 0.15 0.1 0.05 0.0 0.05 0.1 0.15 0.2 Renditen 2.1.6 Empirische Summenfunktion Am nächsten Tag sprechen Sie noch einmal mit Ihrer Freundin und erzählen ihr von Ihren Überlegungen bezüglich der Klasseneinteilung. Eine Frage hat sie noch: Mich interessiert auch der Anteil der Beobachtungen, welcher kleiner als ein bestimmter Wert ist. Etwa wie viel Prozent der Renditen sind kleiner als 0% oder kleiner als 0,1%? Gibt es dafür auch eine Darstellungsart? Auch das ist eine gute Frage. Um die Darstellung herzuleiten, haben Sie zur Übung in Tabelle 2.5 fünf Renditen des DAX ausgewählt. Sie möchten zeigen, wie viel Prozent der Werte kleiner oder gleich einem Wert x sind. Wie könnte das gehen? Da Sie fünf Renditen betrachten, beträgt der Anteil jeder einzelnen Rendite 20%. Nun sortieren Sie die Renditen von klein nach groß und bestimmen die kumulierten Anteile der Renditen, indem Sie die Anteile aller Werte kleiner oder gleich jeden Wertes addieren (siehe Tabelle 2.5). Diese Daten können Sie nun zeichnen (siehe rechte Seite der Abbildung 2.7). Der Punkt an der linken Seite jeder Linie gibt dabei an, dass der linke Randpunkt mit zu der jeweiligen Linie zählt (also kleiner gleich und nicht kleiner). Damit haben Sie die empirische Summen- oder Verteilungsfunktion F n hergeleitet. Allgemein ist diese definiert als: F n (x) := Anteil der Beobachtungswerte x, (2.1) wobei n die Stichprobengröße angibt. Aufgrund der Definition ist die empirische Verteilungsfunktion immer monoton wachsend.
26 Datenbeschreibung Tabelle 2.5 Ausgewählte Renditen des DAX Nummer Renditen Anteil Renditen Kum. Anteil Renditen 1 0,0002 0,2 0,2 2 0,017 0,2 0,4 3 0,028 0,2 0,6 4 0,032 0,2 0,8 5 0,042 0,2 1 Fasziniert zeichnen Sie noch die empirische Verteilungsfunktion für die kompletten 100 DAX-Renditen (siehe Tabelle 2.3) auf der rechten Seite der Abbildung 2.7 ein. In der Tat ist diese monoton wachsend und Sie können nun den Anteil der Renditen kleiner als 0% ablesen. Dieser beträgt circa 30%. Abbildung 2.7 Summenfunktion der DAX-Renditen Empirische Summenfunktion: 5 DAX Renditen Empirische Summenfunktion: 100 DAX Renditen Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 0.01 0.00 0.01 0.02 0.03 0.04 0.05 x 0.2 0.1 0.0 0.1 0.2 x 2.1.7 Weitere Diagrammtypen Sie haben nun schon ein paar nützliche und oft verwendete Diagrammtypen kennengelernt, und beschließen diese mit dem erlaubten Skalenniveau in der Tabelle 2.6 zusammenzufassen.
http://www.springer.com/978-3-658-02803-9