Forschungspraktikum: Krebssterblichkeit in den USA ROLAND RAU Universität Rostock, Wintersemester 2014/2015 21. Oktober 2014 Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 1 / 18
Interessante, relevante und/oder wichtige Links: Grundlage für unsere Daten und sehr viele weitergehende Informationen: Surveillance, Epidemiology and End Results (SEER) des National Cancer Institute s der USA: http://seer.cancer.gov/ International Agency for Research on Cancer der WHO: http://w2.iarc.fr/ Bitte beachten Sie insbesondere den Bereich der Publications Windows-Version von gawk: http://gnuwin32. sourceforge.net/packages/gawk.htm Handbuch für gawk: http://www.gnu.org/software/ gawk/manual/gawk.html Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 2 / 18
Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 3 / 18
Wichtig zur Installation auf dem eigenen Rechner: Sie müssen noch den Pfad (die PATH Variable) verändern. Abhängig vom Betriebssystem (und bei Windows zusätzlich mit welcher Variante) gibt es unterschiedliche Herangehensweisen. Sie müssen hierfür im Internet suchen nach etwas wie: how to set path variable in windows Ein Treffer wäre beispielsweise für Windows: http://www.computerhope.com/issues/ch000549.htm In diese Pfad Variable müssen Sie dann den Pfad zu Ihrer Version von awk/gawk setzen, also Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 4 / 18
Häufigkeitsmessung von Krankheiten Die Inzidenz misst die Häufigkeit des Auftretens einer Krankheit in einer Bevölkerung. Inzidenzrate in einem Jahr t: I t = = Anzahl der Neuerkrankten im Jahr t gelebte Personenjahre im Jahr t Anzahl der Neuerkrankten im Jahr t Durchschnittsbev. im Jahr t Das Resultat wird häufig mit einem Faktor wie 1,000 oder 100,000 multipliziert um eine Rate pro 1,000 oder 100,000 zu erhalten. Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 5 / 18
Häufigkeitsmessung von Krankheiten Die Inzidenz misst die Häufigkeit des Auftretens einer Krankheit in einer Bevölkerung. Inzidenzrate in einem Jahr t: I t = = eventuelles Problem? Anzahl der Neuerkrankten im Jahr t gelebte Personenjahre im Jahr t Anzahl der Neuerkrankten im Jahr t Durchschnittsbev. im Jahr t Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 6 / 18
Häufigkeitsmessung von Krankheiten Die Inzidenz misst die Häufigkeit des Auftretens einer Krankheit in einer Bevölkerung. Inzidenzrate in einem Jahr t: Altersspezifische Inzidenzrate im Alter x im Jahr t: I x,t = = Anzahl der Neuerkrankten im Jahr t im Alter x gelebte Personenjahre im Jahr t im Alter x Anzahl der Neuerkrankten im Jahr t im Alter x Durchschnittsbev. im Jahr t im Alter x Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 7 / 18
Häufigkeitsmessung von Krankheiten Die Inzidenz misst die Häufigkeit des Auftretens einer Krankheit in einer Bevölkerung. Inzidenzrate in einem Jahr t: Altersspezifische Inzidenzrate im Alter x im Jahr t: Altersstandardisierte Inzidenzrate im Jahr t: I x,t c x mit c x als Anteil der Altersgruppe x an der Standardisierungbevölkerung und damit: x c x = 1 x Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 8 / 18
Häufigkeitsmessung von Krankheiten Die Inzidenz misst die Häufigkeit des Auftretens einer Krankheit in einer Bevölkerung. Inzidenz in einem Jahr t: Altersspezifische Inzidenz im Alter x im Jahr t: Altersstandardisierte Inzidenz im Jahr t: Kumulative Inzidenz (über das Alter Maßzahl, bis zum Alter x mit einer bestimmten Krankheit diagnostiziert zu werden): x CI x,t = i=1 I x,t Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 9 / 18
Beispiel: Magenkrebs in Côte-d Or, Frankreich, Männer, 1976 1980 Alter x D x N x c x I x 100, 000 I x c x 100, 000 CI x 1 0 4 0 91,228 0.08 0.00 0.000 0 2 5 9 0 95,230 0.07 0.00 0.000 0.00 3 10 14 0 95,869 0.07 0.00 0.000 0.00 4 15 19 0 98,744 0.07 0.00 0.000 0.00 5 20 24 0 101,131 0.07 0.00 0.000 0.00 6 25 29 0 101,103 0.07 0.00 0.000 0.00 7 30 34 0 83,544 0.07 0.00 0.000 0.00 8 35 29 1 67,580 0.07 1.48 0.104 1.48 9 40 44 3 68,577 0.07 4.37 0.306 5.85 10 45 49 6 68,126 0.07 8.81 0.617 14.66 11 50 54 10 63,708 0.07 15.70 1.099 30.36 12 55 59 17 51,007 0.06 33.33 2.000 63.69 13 60 64 27 37,695 0.05 71.63 3.581 135.31 14 65 69 34 44,374 0.04 76.62 3.065 211.94 15 70 74 51 36,768 0.03 138.71 4.161 350.64 16 75 79 46 24,196 0.02 190.11 3.802 540.76 17 80+ 42 17,491 0.02 240.12 4.802 780.88 237 1,146,371 23.537 I 20.674 Quelle für Datenbeispiel: Esteve et al. (1994, S. 60) Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 10 / 18
Und Prävalenz? Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 11 / 18
gawk Beispiel 1 ## Dieses Skript soll aus dem Datensatz "beispieldaten20142015.txt" nur Frauen ## auswaehlen und diese in ein File herausschreiben incl. der Variablen ## Familienstand, Einkommen und Sterbejahr. # Mit dem Raute-Zeichen kann man wie in R Kommentare schreiben. # Der Rest der Zeile wird danach ignoriert. # Ein awk-skript kann aus drei Teilen bestehen, wobei zwei von diesen # Teilen optional sind. # Fuer dieses Beispiel benoetigen wir nur den Hauptteil. Wo die anderen # Teile auftauchen, werden wir in spaeteren Beispielen sehen. { } geschlecht = substr($0,9,1); if (geschlecht=="f") { fam = substr($0,10,1); geld = substr($0,11,4); sterbjahr = substr($0,19,4); print geschlecht, fam, geld, sterbjahr; } # angenommen, dass diese Datei bsp-awk-2014-01.awk heisst, wird folgendes # Kommando benoetigt: # gawk -f bsp-awk-2014-01.awk beispieldaten20142015.txt # also # gawk -f SKRIPT-FILE DATEN-FILE Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 12 / 18
gawk Beispiel 2 # Das erste Beispiel war ja ganz nett, allerdings waere es schoener, # wenn wir auch noch Variablen-Namen drueber schreiben koennten und # die Werte mit einem Komma separariert werden. # Dafuer benoetigen wir den ersten optionalen Abschnitt. Er wird mit dem # keyword BEGIN eingeleitet. Dieser Abschnitt wird abgearbeitet, bevor # (!) die erste Zeile gelesen wird. BEGIN { OFS = ","; # OFS = Output Field Separator print "Geschlecht", "Familienstand", "Einkommen", "Sterbejahr"; } { geschlecht = substr($0,9,1); } if (geschlecht=="f") { fam = substr($0,10,1); geld = substr($0,11,4); sterbjahr = substr($0,19,4); print geschlecht, fam, geld, sterbjahr; } ### gawk -f bsp-awk-2014-02.awk beispieldaten20142015.txt Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 13 / 18
gawk Beispiel 3 # Und nun wollen wir noch unsere Daten nicht auf dem Bildschirm # ausgeben sondern in eine Datei schreiben. # Dies geht mit dem > Zeichen, wobei # > eine neue Datei schreibt und # >> an eine Datei anhaengt # Zusaetzlich wollen wir auch noch das Sterbealter berechnen. BEGIN { OFS = ","; # OFS = Output Field Separator print "Geschlecht","Familienstand","Einkommen","Sterbejahr","Sterbealter" > "Ourdata.txt"; } { geschlecht = substr($0,9,1); if (geschlecht=="f") { fam = substr($0,10,1); geld = substr($0,11,4); sterbjahr = substr($0,19,4); gebjahr = substr($0,15,4); sterbalter = sterbjahr - gebjahr ## das ist natuerlich eine ## Vereinfachung, klar } } print geschlecht, fam, geld, sterbjahr, sterbalter >> "Ourdata.txt"; ### gawk -f bsp-awk-2014-03.awk beispieldaten20142015.txt Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 14 / 18
Vielen Dank für Ihre Aufmerksamkeit! Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 15 / 18
Esteve, J., E. Benhamou, and L. Raymond (1994). Descriptive Epidemiology, Volume IV of Statistical Methods in Cancer Research. Lyon, F: World Health Organization. International Agency for Research on Cancer. Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 16 / 18
Lizenz This open-access work is published under the terms of the Creative Commons Attribution NonCommercial License 2.0 Germany, which permits use, reproduction & distribution in any medium for non-commercial purposes, provided the original author(s) and source are given credit. Für ausführlichere Informationen: http://creativecommons.org/licenses/by-nc/2.0/de/ (Deutsch) http://creativecommons.org/licenses/by-nc/2.0/de/deed.en (English) Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 17 / 18
Kontakt Universität Rostock Institut für Soziologie und Demographie Lehrstuhl für Demographie Ulmenstr. 69 18057 Rostock Germany Tel.: +49-381-498 4044 Fax.: +49-381-498 4395 Email: roland.rau@uni-rostock.de Sprechstunde im WS 2014/2015: Mittwochs, 13:00 15:00 (und nach Vereinbarung) Roland Rau Forschungspraktikum: Krebssterblichkeit in den USA 18 / 18