Wahrscheinlichkeitsrechnung und Statistik Für Ingenieurstudenten an Fachhochschulen von Michael Sachs erweitert Wahrscheinlichkeitsrechnung und Statistik Sachs schnell und portofrei erhältlich bei beck-shopde DIE FACHBUCHHANDLUNG Hanser München 2006 Verlag CH Beck im Internet: wwwbeckde ISBN 978 3 446 40902 6 Inhaltsverzeichnis: Wahrscheinlichkeitsrechnung und Statistik Sachs
Wahrscheinlichkeitsrechnung und Statistik Michael Sachs für Ingenieurstudenten an Fachhochschulen ISBN 3-446-40902-5 Leseprobe Weitere Informationen oder Bestellungen unter http://wwwhanserde/3-446-40902-5 sowie im Buchhandel
46 2 Beschreibende Statistik 26 Zweidimensionale Häufigkeitsverteilungen In diesem Abschnitt betrachten wir bei einer statistischen Masse zwei Merkmale X und Y und die damit verbundenen Besonderheiten Beispielsweise können wir bei Menschen die Merkmale Alter und Größe erheben, oder bei Werkstücken Durchmesser und Masse Diese zweidimensionale Datenmenge liegt zunächst als Urliste vor und kann in eine zweidimensionale Häufigkeitstabelle überführt und auch graphisch dargestellt werden Urliste, Häufigkeitstabelle und Streudiagramm Die Urliste gibt zu jedem statistischen Element i die beiden Merkmalsausprägungen x i von X und y i von Y an nach folgendem Schema: Element Nr 1 2 i n Ausprägung von X x 1 x 2 x i x n Ausprägung von Y y 1 y 2 y i y n Bei größeren Datenmengen ist es aus Gründen der Übersichtlichkeit wieder sinnvoll, alle Elemente zusammenzufassen, die in beiden Ausprägungen übereinstimmen Wir erhalten so eine zweidimensionale Häufigkeitstabelle, auch Kontingenztafel genannt Dabei bezeichnen die a j,j =1,,l,die verschiedenen Ausprägungen von X, dieb k,k =1,,m, die verschiedenen Ausprägungen von Y : Y Verteilung b 1 b 2 b k b m von X a 1 h 11 h 12 h 1k h 1m h 1 a 2 h 21 h 22 h 2k h 2m h 2 X a j h j1 h j2 h jk h jm h j a l h l1 h l2 h lk h lm h l Vert von Y h 1 h 2 h k h m n Es gilt die in der Matrizenrechnung übliche Konvention für Doppelindizes: Der erste Index bezeichnet die Zeile, der zweite die Spalte h jk steht also in Zeile j, Spalte k, und es gilt somit h jk = Anzahl Elemente mit (X = a j ) und (Y = b k ) (246)
26 Zweidimensionale Häufigkeitsverteilungen 47 Die Werte am rechten und unteren Rand der Tabelle werden als Randhäufigkeiten bezeichnet Sie geben die Häufigkeitsverteilungen von X allein bzw Y allein an h j ist die Summe über die Zeile j, dagegen h k die Summe über die Spalte k: h j = Anzahl Elemente mit (X = a j )= h k = Anzahl Elemente mit (Y = b k )= h jk und (247) h jk (248) Die Summe aller Randhäufigkeiten muss jeweils gleich n sein: h j = h k = n (249) Bei stetigen Merkmalen und großem Umfang n können anstelle der a j und b k wieder Klassen K j und L k von Merkmalsausprägungen treten Die der zweidimensionalen Urliste angemessene graphische Darstellung (Visualisierung) von quantitativen Daten ist das Streudiagramm, aus naheliegenden Gründen auch Punktwolke genannt: Jedes Paar von Ausprägungen (x i,y i ) wird dabei als Punkt in einem (x, y)-koordinatensystem repräsentiert Beispiel 224 Bei zwölf Kraftfahrzeugen eines Fuhrparks werden die Merkmale Alter (in Jahren) und gefahrene Kilometer (in 1000 km) erhoben Es ergibt sich folgende Urliste: Nr Alter Strecke Nr Alter Strecke in Jahren in 1000 km in Jahren in 1000 km 1 15 30 7 18 21 2 52 68 8 42 112 3 45 90 9 62 230 4 05 12 10 36 120 5 24 100 11 25 56 6 26 62 12 51 109 Man erstelle das dazugehörige Streudiagramm Lösung: Deutlich ist ein Zusammenhang erkennbar: Ältere Autos haben offenbar mehr gefahrene Kilometer, was plausibel ist Man kann jedoch keine
48 2 Beschreibende Statistik 250 200 y/1000km 150 100 50 0 x/jahre 1 2 3 4 5 6 7 Bild 29: Streudiagramm für Alter und gefahrene Kilometer allgemein gültige Formel angeben, mit deren Hilfe sich die gefahrenen Kilometer aus dem Alter ausrechnen lassen Es gibt also wohl einen Zusammenhang, aber keine funktionale Abhängigkeit zwischen den beiden Merkmalen Arithmetisches Mittel und Varianz Arithmetische Mittel und Varianzen für die einzelnen Merkmale X und Y werden wie in (215) bzw (238) erklärt, wobei lediglich darauf zu achten ist, dass bei der Berechnung dieser Maßzahlen aus der zweidimensionalen Häufigkeitstabelle die entsprechenden Randhäufigkeiten h j bzw h k einzusetzen sind: x = 1 n ȳ = 1 n s 2 x = s 2 y = x i = 1 n y i = 1 n 1 1 a j h j, (250) b k h k, (251) (x i x) 2 = 1 (y i ȳ) 2 = 1 (a j x) 2 h j, (252) (b k ȳ) 2 h k (253)
26 Zweidimensionale Häufigkeitsverteilungen 49 Kovarianz Die wirklich neue Maßzahl, an der beide Messreihen gleichzeitig beteiligt sind, ist die Kovarianz Definition 214 Die (empirische) Kovarianz der Wertepaare (x 1,y 1 ), (x 2,y 2 ),,(x n,y n ) ist erklärt durch Cov(X, Y )=s xy = 1 (x i x)(y i ȳ) (254) Ihre Einheit ist das Produkt der Einheiten der x i und der y i Man beachte, dass das Formelzeichen für die Kovarianz s xy lautet und nicht etwa (wie bei der Varianz) s 2 xy Dieswäreauch sicherlich nicht sinnvoll, da die Kovarianz auch negativ werden kann, wie wir gleich sehen werden Für die praktische Berechnung mit Taschenrechner ist wieder die Umformung ( s xy = 1 n ) x i y i n xȳ (255) effizienter, die man durch Ausmultiplizieren der Klammern unter der Summe in (254) erhält Die Kovarianz lässt sich auch leicht aus der zweidimensionalen Häufigkeitstabelle errechnen: s xy = 1 a j b k h jk n xȳ (256) Um die Kovarianz auch inhaltlich zu verstehen, ist dagegen die Darstellung (254) am besten geeignet Wir verwenden zur Illustration die Daten von Beispiel 224 mit den Lebensdauern und gefahrenen Kilometern von zwölf Kraftfahrzeugen und legen durch das Streudiagramm neue Koordinatenachsen, die genau durch x und ȳ hindurchgehen (in Bild 210 gestrichelt) Dadurch wird das Streudiagramm in vier Quadranten eingeteilt, die folgende Eigenschaften haben: In I liegen die Punkte mit x i > x und y i > ȳ, in III die Punkte mit x i < x und y i < ȳ In I und III gilt also: (x i x)(y i ȳ) > 0