Vorlesung Dr. Wiltrud Kuhlisch Frühjahr 2015 TU Dresden, Institut für Mathematische Stochastik 1 Einführung 1.1 Literatur Mathematische Statistik für Studierende der Hydrologie und Abfallwissenschaften Bamberg, G. und Baur, F. (1991). Statistik. 7. Auflage, München - Stuttgart, Oldenbourg-Verlag. Clauß, G., Finze, F.R. und Partzsch, L. (1994). Statistik. Frankfurt, Verlag Harri Deutsch. Fahrmeir, L./ Künstler, R., Pigeot, I., Tutz, G. (2001). Statistik. Springer, Berlin. Fahrmeir, L./ Hamerle, A. (1984). Multivariate Statistische Verfahren. De Gruyter, Berlin. Hartung, J. (1991). Statistik. Lehr- und Handbuch der angewandten Statistik. München - Wien, Oldenbourg-Verlag. Lehn, J. und Wegmann, H. (1985). Einführung in die Statistik. Stuttgart, B.G. Teubner. Riedwyl, H. (1989). Angewandte Statistik. Bern - Stuttgart, Verlag P. Haupt. Storm, R. (2007). Wahrscheinlichkeitsrechnung, mathematischen Statistik und statistische Qualitätskontrolle. 12. Auflage, Carl Hanser Verlag, München. Sachs, L., Hedderich, J. (2009). Angewandte Statistik. Methodensammlung mit R. Springer, Berlin. Rudolf, M., Kuhlisch, W. (2008). Biostatistik, Eine Einführung für Biowissenschaftler, PEAR- SON München. 1
1.2 Vorbemerkungen zu wasserwirtschaftlichen oder meteorologischen Daten Statistik spielt in vielen Bereichen der Gesellschaft und so auch in der Ingenieurtechnik eine große Rolle, um Bewertungen, Einschätzungen, Trend- und Zusammenhangsanalysen vornehmen zu können. Statistik=Datenanalyse Ausgangspunkt statistischer Untersuchungen sind DATEN - Was versteht man unter DATEN? - Was wurde gemessen, was wurde erfragt? - Wie, wo wurde gemessen? Warum? - Im Rahmen einer Versuchsplanung: Wieviel Messungen / Befragungen liegen vor bzw. werden benötigt? - Datencharakter i.d.r. historisch Wasserwirtschaftliche Hauptwerte (Merkmale, zufällige Merkmale) Einige (zufällige) Merkmale in den Geo- und Hydrowissenschaften besitzen feste abgekürzte Bezeichnungsweisen, die in der Norm DIN 4049, Teil 1, festgelegt sind: Bezeichnungen N Niedrig In einer MN Mittel von N,H M Mittel Wertereihe MH über mehrjährigen H Hoch Zeitraum Diese Abkürzungen werden gekoppelt mit hydrologischen Größen verwendet, wie z.b. - Q...Durchfluss (Abfluss, Zufluss; Basisdurchfluss Q B ) - W...Wasserstand - h N...Niederschlagshöhe - T W...Wassertemperatur - T L...Lufttemperatur Beispiele M Q M N Q HQ N N Q HHW Mittelwasserdurchfluss (M Q(a) Mittelwasserd. jährlich) mittleres jährliches Niedrigwasser Hochwasserdurchfluss (HQ(m) Hochwasserd. monatlich) niedrigster je beobachteter Abfluss höchster je beobachteter Wasserstand 2
HW (2001) HQ k k HQ 100 NW 10 Hochwasserstand im Jahre 2001 im Unterschied zu: Höchstwasserstand, der im Mittel nur einmal in k Jahren überschritten wird, Wiederkehrzeit, z.b. 100-jährliches Hochwasser Niedrigwasserstand, der im Mittel nur einmal in 10 Jahren unterschritten wird. 'data.frame': 50 obs. of 3 variables: $ jahr: num 1921 1922 1923 1924 1925... $ mq : num 40.8 67 79.9 61.9 49.1... $ hq : num 363 474 640 510 241 962 609 338 283 354... jahr mq hq 1 1921 40.8 363 2 1922 67.0 474 3 1923 79.9 640 4 1924 61.9 510 5 1925 49.1 241 6 1926 101.1 962 7 1927 78.2 609 8 1928 41.1 338 9 1929 39.0 283 10 1930 48.3 354 11 1931 62.5 298 12 1932 68.5 1284 13 1933 39.6 417 14 1934 32.1 241 15 1935 56.4 288 16 1936 46.3 143 17 1937 64.0 774 18 1938 64.5 652 19 1939 69.3 266 20 1940 100.0 506 21 1941 118.0 1050 22 1942 72.3 529 23 1943 39.0 118 24 1944 67.7 593 25 1945 61.1 219 26 1946 74.1 968 27 1947 39.9 768 28 1948 68.1 693 29 1949 49.4 392 30 1950 42.7 227 31 1951 41.5 174 32 1952 49.8 227 33 1953 67.7 436 34 1954 77.7 1740 35 1955 107.0 577 3
36 1956 80.8 647 37 1957 79.9 480 38 1958 79.7 1090 39 1959 44.7 436 40 1960 45.2 615 41 1961 80.2 453 42 1962 42.1 218 43 1963 31.9 595 44 1964 30.2 336 45 1965 88.1 632 46 1966 74.2 445 47 1967 82.7 354 48 1968 82.7 623 49 1969 63.6 319 50 1970 74.8 477 Histogram of mq Histogram of hq Frequency 0 2 4 6 8 10 Frequency 0 5 10 15 40 60 80 100 mq 0 500 1000 1500 hq Stichprobenziehung aus einer Grundgesamtheit Eine Grundgesamtheit (Population) ist eine (gedachte) Menge von Merkmalsträgern, aus der eine Stichprobe (Teilmenge) gewählt wird. An den Objekten/ Elementen dieser 4
Stichprobe werden Merkmalsausprägungen eines oder mehrerer Merkmale gemessen oder beobachtet. Eine konkrete mathematische Stichprobe besteht aus den gemessenen Merkmalsausprägungen eines oder mehrerer solcher Merkmale: (x 1, x 2,..., x n ) Stichprobe vom Umfang n für ein Merkmal, z. B. HQ-Messwerte (hq) Eine Datenmatrix (vektorwertige Stichprobe, data.frame ) enthält n Merkmalsausprägungen von p Merkmalen: x 1,1 x 1,2... x 1,p x 2,1 x 2,2... x 2,p............ x n,1 x n,2... x n,p Datenanalyse: - Ziel: allgemeingültige Aussagen, Schlussfolgerungen und Vorhersagen über die Verteilung untersuchter Merkmale auf der Basis statistischer Modelle - Explorative Datenanalysen dienen der Beschreibung gegebener Daten (Stichprobenverteilungen). (Kapitel 3) (Buchkapitel 2) - Konfirmatorische Datenanalysen (Verfahren der prüfenden Statistik) dienen zur Entscheidung über Hypothesen die betrachtete Grundgesamtheit (Population) betreffend. (Kapitel 4-7)(Buchkapitel 4-7) Rückschluss Stichprobe = Grundgesamtheit mit Hilfe eines stochastischen Modells ( >Wahrscheinlichkeitstheorie (Kapitel 2)(Buchkapitel 3)) 5
Gliederung: 2 Wahrscheinlichkeitstheoretische Grundlagen statistischer Auswertungen 3 Beschreibende Statistik 4 Schätzverfahren 5 Testverfahren 6 Korrelationsanalyse 7 Regressionsanalyse 8 Zeitreihenanalyse 6