1 Datenanalyse? Daten? Statistik?



Ähnliche Dokumente
1 Mathematische Grundlagen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Informationsblatt Induktionsbeweis

2. Psychologische Fragen. Nicht genannt.

Primzahlen und RSA-Verschlüsselung

Professionelle Seminare im Bereich MS-Office

Modellbildungssysteme: Pädagogische und didaktische Ziele

Umgang mit Schaubildern am Beispiel Deutschland surft

Einführung in die Algebra

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Melanie Kaspar, Prof. Dr. B. Grabowski 1

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Arbeitsmarkteffekte von Umschulungen im Bereich der Altenpflege

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Grundlagen der Theoretischen Informatik, SoSe 2008

QM: Prüfen -1- KN

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Zeichen bei Zahlen entschlüsseln

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

Statistische Auswertung:

Speicher in der Cloud

Statistik I für Betriebswirte Vorlesung 5

Gutes Leben was ist das?

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

1 topologisches Sortieren

Anleitung über den Umgang mit Schildern

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Finanzierung: Übungsserie III Innenfinanzierung

Simulation LIF5000. Abbildung 1

Daten sammeln, darstellen, auswerten

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

Repetitionsaufgaben Wurzelgleichungen

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

TESTEN SIE IHR KÖNNEN UND GEWINNEN SIE!

Befragung zum Migrationshintergrund

Strom in unserem Alltag

Data Mining: Einige Grundlagen aus der Stochastik

Berechnung der Erhöhung der Durchschnittsprämien

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Beweisbar sichere Verschlüsselung

4. Erstellen von Klassen

Selbstreflexion für Lehrpersonen Ich als Führungspersönlichkeit

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

Mind Mapping am PC. für Präsentationen, Vorträge, Selbstmanagement. von Isolde Kommer, Helmut Reinke. 1. Auflage. Hanser München 1999

Um Ihre Ziele durchzusetzen! Um Beziehungen zu knüpfen und zu pflegen! Um in Begegnungen mit anderen Ihre Selbstachtung zu wahren!

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Datenbanken Kapitel 2

DAVID: und David vom Deutschlandlabor. Wir beantworten Fragen zu Deutschland und den Deutschen.

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Einführung in. Logische Schaltungen

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

4.4 AnonymeMärkteunddasGleichgewichtder"vollständigen Konkurrenz"

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

EM-Wellen. david vajda 3. Februar Zu den Physikalischen Größen innerhalb der Elektrodynamik gehören:

Korrelation (II) Korrelation und Kausalität

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Kreativ visualisieren

FAQ Spielvorbereitung Startspieler: Wer ist Startspieler?

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

R ist freie Software und kann von der Website.

Materialien für den Unterricht zum Kurzfilm Steffi gefällt das von Philipp Scholz Deutschland 2012, 5 Minuten, Spielfilm

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R

Wir arbeiten mit Zufallszahlen

Deutschland-Check Nr. 35

Sehbehindertentag 6. Juni. Kontraste. helfen schwachen Augen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Was ist das Budget für Arbeit?

Mobile Intranet in Unternehmen

1. Standortbestimmung

DIE ANWENDUNG VON KENNZAHLEN IN DER PRAXIS: WEBMARK SEILBAHNEN IM EINSATZ

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

2.1 Präsentieren wozu eigentlich?

Papa - was ist American Dream?

Welches Übersetzungsbüro passt zu mir?

Projektmanagement in der Spieleentwicklung

Der Klassenrat entscheidet

Kulturelle Evolution 12

Erfolg im Verkauf durch Persönlichkeit! Potenzialanalyse, Training & Entwicklung für Vertriebsmitarbeiter!

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Erfahrungen mit Hartz IV- Empfängern

7 Rechnen mit Polynomen

Schnelle Antwort, gute klare Beratung. Ich bin wirklich sehr zufrieden. Auswertung der Mandantenbefragung 2007

Kinderarmut. 1. Kapitel: Kinderarmut in der Welt

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

DNotI. Fax - Abfrage. GrEStG 1 Abs. 3 Anteilsvereinigung bei Treuhandverhältnissen. I. Sachverhalt:

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Stichprobenauslegung. für stetige und binäre Datentypen

Transkript:

It is important to understand, what you can do before you learn to measure how well you seem to have done it. J. W. TUKEY 1 Datenanalyse? Daten? Statistik? In unserem Leben werden wir auf unterschiedliche Weisen mit Daten (Informationen) konfrontiert. Nicht selten werden Daten ( Fakten ) benutzt, um ein Argument oder eine Position zu untermauern Wissen ist Macht als quasi-faustrecht im Informationszeitalter? Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write. H.G. WELLS (1866-1946) Dieses Zitat des bekannten Autors hebt die Disziplin Statistik in eine prominente Position. Vermutlich werden die wenigsten der Aussage in der heutigen Zeit widersprechen. Es genügt, die Tages- oder Wochenzeitung aufzuschlagen oder die Nachrichten im Fernsehen zu schauen. Statistiken sind allgegenwärtig. Sie sind die schlagenden Argumente der Akteure: Arbeitslosenzahl über 5 Millionen! Das Wachstum der Wirtschaft wurde auf 1% korrigiert! 25% weniger Kapitalverbre- chen! Armut nimmt zu 30% mehr Deutsche unter der Armutsgrenze! Dies alles sind Statistiken, also einen komplexen Sachverhalt zusammenfassende Kenngrößen. Wenn wir diese Aussagen nun noch einmal vor dem Hintergrund des ersten Zitats betrachten, müssen wir feststellen, die von WELLS angekündigte Zeit scheint angebrochen zu sein. Gehen wir noch einen Schritt weiter: Verstehen wir die Aussagen? Können wir aus der Statistik die zugrundeliegenden Kausalitäten nachvollziehen? Wenn die Arbeitslosenzahl auf 5 Millionen steigt, ist das äquivalent zu der Feststellung, dass 5 Millionen Menschen in Deutschland, die arbeiten können und wollen, dies nicht tun können? Wie passt dazu die Aussage, dass aufgrund einer Änderung der Definition der Statistik die Zahl künstlich erhöht wurde? Fängt man an, über die einzelnen Aussagen nachzudenken, stellt man schnell fest, dass sich einem Hintergründe und Kausalitäten nicht unbedingt erschließen. Dennoch sollen wir aufgrund solcher oder ähnlicher Aussagen Entscheidungen treffen, die bei ganz persönlichen Konsumentscheidungen beginnen und an der Wahlurne enden. 13

Datenanalyse? Daten? Statistik? Eine Statistik kann als Entscheidungsinstrument weitreichende Konsequenzen nach sich ziehen. Die richtigen Zahlen zu haben, kann also der entscheidende Vorteil sein. Da ist es leider nicht verwunderlich, dass man versucht, aus unverrückbaren Daten, die die eigene Position nicht stützen oder dieser sogar im Weg stehen, dennoch die gewünschten Aussagen zu extrahieren. Daten werden suggestiv dargestellt, werden durch Maßzahlen so aggregiert, dass der gewünschte Effekt entsteht, werden mittels Graphiken verzerrt, werden ihrem Kontext entrissen oder sie werden schlicht manipuliert bzw. gefälscht. Unter der Phrase Lügen mit Statistik findet man in der Literatur oder im Internet eine Reihe von Möglichkeiten, hinter die Kulissen der Datentrickserei zu schauen. Im letzten Abschnitt wurde die Frage nach den Kausalitäten aufgeworfen. 30% mehr Deutsche leben unterhalb der Armutsgrenze ist eine Erkenntnis, ein Mehrwert an Wissen, Wissen wurde sozusagen generiert. Wir könnten an dieser Stelle nun eine ganze Reihe von Definitionen der Disziplin Statistik präsentieren. Den wirklichen Kern der Statistik haben wir aber bereits freigelegt: Wie gelange ich zu (neuen) Erkenntnissen? Wie wird neues Wissen generiert? Damit schließt sich nun auch der Kreis zu den zu Beginn erwähnten Daten. Statistik beschreibt den Transformationsprozess von unzusammenhängenden und nicht selten massenhaft auftretenden Beobachtungen, Daten zu allgemeingültigen Aussagen. Es geht immer darum, Strukturen freizulegen und Zusammenhänge aufzudecken. Dies gilt sowohl für das exploratorische Vorgehen als auch für das konfirmatorische bzw. hypothesengetriebene der klassischen schließenden Statistik. Bei der tatsächlichen Arbeit ist eine Vermischung dieser Ansätze sinnvoll und auch zu beobachten. Während man in der schließenden Statistik versucht, konkrete Fragen und Überlegungen mit Hilfe der Daten zu beantworten Hypothesen zu stützen bzw. zu falsifizieren, ist man beim exploratorischen Vorgehen mehr vom Entdeckergeist getrieben. Die exploratorische Datenanalyse ist vor allem seit den 90er Jahren zu großer Bedeutung gelangt, da die Rechnerleistungen erst ein gewisses Niveau an Dateninteraktion ermöglichen mussten. An dieser Stelle sei natürlich auf das Buch Exploratory Data Analysis von JOHN TUKEY verwiesen, das bereits 1977 erschienen ist und die intellektuelle Basis der modernen Datenanalyse bildet. We are drowning in information, but starving for knowledge. JOHN NAISBETT Die Sehnsucht nach dem erwähnten Transformationsprozess ist hier noch einmal mit einem Zitat untermauert. Im heutigen Informationszeitalter fallen an allen Ecken Daten an. Sinnhaftigkeit in diese zu bekommen bzw. 14

Datenanalyse? Daten? Statistik? daraus neues und brauchbares Wissen zu generieren, ist eine vornehmliche Aufgabe der Statistik. In diesem Zusammenhang sei auch ein ganz wenig Wissenschaftstheorie erlaubt, um die vorangegangenen Beschreibungen festzuzurren. Knapp formuliert gibt es zwei Arten, wie man zu neuem Wissen gelangen kann: Deduktion und Induktion. Definition 1.1: Deduktion Bei der Deduktion verläuft der Erkenntnisschritt vom Allgemeinen zum Speziellen, zum Besonderen. Mithilfe der Deduktion werden spezielle Einzelerkenntnisse aus allgemeinen Theorien gewonnen. Deduktion ist eins der wesentlichen Arbeitsprinzipien der formalen Wissenschaften, beispielsweise leitet man in der Mathematik auf Basis von Axiomen durch Deduktion neue Gesetze her. Definition 1.2: Induktion Bei der Induktion ist das Vorgehen gerade umgekehrt, vom Speziellen zum Allgemeinen vollzieht sich der Erkenntnisschritt. Im Rahmen der induktiven Verallgemeinerung wird von einer Teilklasse auf die Gesamtklasse geschlossen. Ausgangspunkt sind hier Beobachtungen, aus denen allgemeingültige Schlussfolgerungen abgeleitet werden sollen. Im Idealfall gelangt man so aufgrund empirischer Beobachtungen zu größerenaussagen, die auch allgemeingelten. Induktion bildet das Wesen vieler empirischer Untersuchungen, in denen man einzelne Fälle beobachtet, jedoch hinter allgemeinen Gesetzen oder Aussagen her ist. Die Darstellung ist selbstverständlich stark vereinfacht und natürlich ist wissenschaftliches Arbeiten nicht streng getrennt nach Induktion und Deduktion. Wir erkennen die konfirmatorischen bzw. exploratorischen Ansätze aus der Statistik gut wieder. Ein statistisch arbeitender Mensch ist in der Regel ein induktiv vorgehender. Daher ist der Urzweck der Statistik auch die schließende oder induktive Statistik, die gerne als Inferenzstatistik bezeichnet wird. Was macht ein Statistiker also? Sehr oft ist die Situation die folgende: Man möchte etwas über ein großes Unbekanntes etwas erfahren. Vielleicht ist es wichtig zu wissen, wie viele Deutsche unterhalb der Armutsgrenze leben. Man möchte damit eine für alle Deutschen oder in Deutschland lebenden Personen eine Aussage treffen, eine Erkenntnis generieren. Somit ist auch klar, welche Rolle das Adjektiv groß in diesem Zusammenhang spielt. Die schiere Größe der Gesamtheit aller in Frage kommenden Personen macht es unmöglich, den naheliegenden und direkten Weg zu wählen, nämlich die Betreffenden nach ihren Einkommensverhältnissen zu befragen. 15

Datenanalyse? Daten? Statistik? Erinnern wir uns an das induktive Vorgehen: Aufgrund von einigen speziellen Beobachtungen sollen allgemein gültige Schlussfolgerungen gezogen und Erkenntnisse gewonnen werden. Auf unsere Situation übertragen heißt das, es genügt, einen Teil derbevölkerung nach ihrem Einkommen zu befragen, um auf das Einkommen aller (mit Hilfe geeigneter statistischer Mittel) zu schließen. Formulieren wir die Situation ein wenig statistisch um, klingt die geschilderte Aufgabe folgendermaßen: Aus einer in Bezug auf die interessierende Größe unbekannten Grundgesamtheit soll eine Stichprobe vom Umfang n gezogen werden. Die Größe der Stichprobe hängt von vielen Faktoren ab. Grundsätzlich gilt aber: Je größer n gewählt wird, desto genauer sind die späteren Schlussfolgerungen, desto schwieriger und teurer wird aber auch die Ziehung der Stichprobe. Die optimale Größe gilt es zu finden. Mit Hilfe statistischer Verfahren wird die Stichprobe vor dem Hintergrund der Fragestellung gründlich analysiert und interpretiert. Aufgrund der gewonnenen Erkenntnisse kann auf die unbekannte Grundgesamtheit geschlossen werden. Wir sind in der Lage, eine qualifizierte Aussage zur bislang unbekannten Situation in der Grundgesamtheit zu wagen. Auch ohne eine theoretische Vorbildung würden wir uns vermutlich intuitiv ganz ähnlich verhalten. Was würden wir unternehmen, um herauszubekommen, ob ein Würfel fair ist oder nicht? Fair soll heißen, dass er nicht gezinkt ist und also jede der sechs Seiten die gleiche Chance hat, nach einem Wurf oben zu liegen; insbesondere die Augenzahl 6 könnte uns interessieren. Die Situation ist ähnlich: Wir haben es mit einer unbekannten Größe zu tun, über die wir eine Aussage machen möchten. Wie bei dem Einkommen der gesamten Bevölkerung können wir auch hier nicht darauf setzen, diese Gesamtheit zu erfassen. Einen Würfel kann man theoretisch sogar unendlich oft werfen. Auch hier werden wir uns also mit einer Stichprobe begnügen: Wir werfen den Würfel einige Male und merken uns, wie oft die Augenzahl 6 oben liegt. Es ist ebenfalls intuitiv klar, dass es nicht ausreicht, den Würfel nur sehr wenige Male zu werfen, um eine einigermaßen verlässliche Antwort auf die Frage nach der Fairness des Würfels zu bekommen. Mit dem nächsten aktivierbaren Codechunk mit R-Anweisungen kann der Einfluss der Anzahl der Würfe auf diesen Entscheidungsprozess nachvollzogen werden. 16

1.1 Was für Daten gibt es? Bei einem fairen Würfel beträgt die Wahrscheinlichkeit, eine 6 zu bekommen, gerade 1/6. Wenn wir einen fairen Würfel 1000 mal werfen, sollte am Ende also so etwa 170 mal eine 6 gewürfelt worden sein: 1 000/6 = 166.7 probieren Sie es aus! Mit Hilfe von R ist es übrigens sehr leicht, einen Würfel zu simulieren, 10 Würfe werden hier produziert: 5 >sample(6,10,replace=t) [1] 1 6 3 5 3 4 2 2 5 2 Starte außerdem: 6 >wuerfel.exp() Alles klar? Was ist also Statistik? Das nächste Zitat ist auch gleich als Übergang zum nächsten Abschnitt zu verstehen: Statistics is the science of gaining information from data. Data are numbers with a context. DAVID MOORE (1991) 1.1 Was für Daten gibt es? Diese Frage ist etwas unscharf formuliert. Daten kann man nach vielen Gesichtspunkten einteilen: Woher kommen die Daten? Welche Struktur haben die Daten? Warum sind die Daten angefallen, beobachtet bzw. gesammelt worden? Sind die Daten systematisch erzeugt worden? Wer hat die Daten erhoben? Und so weiter. Diesen Fragen ist gemein, dass sie die bloße Existenz bzw. den Umstand dieser Daten abklopfen: Wofür stehen die Daten, welchem Kontext sind sie entsprungen, was beschreiben die Daten und welche Fragestellung wird verfolgt? Das ist wichtig. Das Zitat zum Abschluss des letzten Abschnittes sollte diesen Aspekt beleuchten. Wir wollen uns nun aber einer etwas technischeren Betrachtung von Daten zuwenden: Was für Eigenschaften haben Daten? Oder anders formuliert: Was darf man mit den Daten machen? Die erste Einteilung erfolgt nach den verschiedenen Skalentypen. Die Merkmalsausprägungen werden mittels Skalen gemessen. Eine Skala ist die Abbildung empirischer Objekte in ein System von reellen Zahlen, Beispiele: Körpergröße 180, Geschlecht 1 usw das Merkmal ist dann die Körpergröße, die Merkmalsausprägung die 180. Es gibt drei verschiedene Skalentypen: Definition 1.3: Nominalskala Eine Nominalskala ist eine Skala, die die Zuordnung von Merkmalsträgern in bestimmte Klassen erlaubt. Bei nominalskalierten Daten mit lediglich zwei Ausprägungen spricht man von binären Variablen. 17

Datenanalyse? Daten? Statistik? Es wird also lediglich eine Verschiedenartigkeit zum Ausdruck gebracht. Die Nominalskala ist die Skala mit dem niedrigsten Informationsgehalt. Die statistischen Methoden, die für nominalskalierte Daten zur Verfügung stehen, sind daher sehr begrenzt. Beispiele für nominale Merkmals sind: Parteienvorliebe, Geschlecht, Studienfach. Wir sprechen also von einer Nominalskala, von nominalen oder nominal skalierten Merkmalen, vom nominalen Messniveau oder bedeutungsgleich von einer nominalen Metrik. Definition 1.4: Ordinalskala/ Rangskala Eine Ordinalskala oder Rangskala ist eine Skala, die die Einordnung von Merkmalsträgern in Klassen, die sich durch ein Sortierkriterium in eine sinnvolle Reihenfolge bringen lassen, erlaubt. Durch die Codierung wird nicht bloß eine Verschiedenartigkeit, sondern eine natürliche Rangfolge zum Ausdruck gebracht. Die verschiedenen Merkmalsausprägungenkönnen also mit Hilfe der Skala sortiert werden. Der Informationsgehalt ist aufgrund der Ordnung größer, kleiner, gleich höher als bei einer nominalen Metrik Klasse x, Klasse y, Klasse z. Alle für nominalskalierten Daten geeigneten Operationen sind auch für ordinalskalierte erlaubt. Mit ordinalskalierten Daten kann aber nicht gerechnet werden, Summen, Mittelwerte und auch Differenzen machen keinen Sinn. Beispielsweise gehören Steuerklassen, Güteklassen beim Hotel, Schulnoten, Beurteilungen eines Films zu ordinalen Merkmalen. Unsinnig sind durchschnittliche Steuerklassen von Ehepaaren. Es kann nicht behauptet werden, dass -Hotels doppelt so gut wie -Hotels sind, und strenggenommen sind auch Durchschnittsnoten in der Schule nicht interpretierbar, weil die Abstände zwischen den Noten nicht als gleich groß angesehen werden können. Definition 1.5: Kardinalskala/ metrische Skala Eine Kardinalskala ist eine Skala, die arithmetische Operationen auf den Merkmalsausprägungen zulässt. Kardinalskalierte oder metrische Daten weisen den höchsten Informationsgehalt auf. Mit diesem Datentyp lassen sich die umfangreichsten statistischen Analysen durchführen. Eine metrische Codierung drückt nicht nur Verschiedenartigkeit oder Reihenfolge aus, es können auch mess- und quantifizierbare Unterschiede ermittelt werden. Hier machen Abstände Sinn. Es können Summen und damit Mittelwerte gebildet sowie Vielfache berechnet und interpretiert werden. Kardinalskalen werden klassifiziert in Intervallskalen bei denen nur Differenzen interpretierbar sind 18

1.2 Wo kommen Daten her?, Verhältnisskalen hier macht es Sinn, Verhältnisse von Merkmalsausprägungen zu berechnen und Absolutskalen diese zeichnen sich durch eine natürliche Einheit aus. Typische Beispiele für kardinalskalierte Merkmale sind: Alter, Gewicht, Größe. Die letzte wichtige Charakterisierung von Merkmalen erfolgt in Bezug auf die Mächtigkeit der Ausprägungsmenge. Es wird unterschieden in diskrete und stetige Merkmale: Definition 1.6: Diskretes Merkmal Ist die Menge der Ausprägungen endlich oder abzählbar unendlich, nennen wir ein Merkmal diskret. Nominal- sowie ordinalskalierte Daten sind immer diskret. Kardinalskalierte Daten können diskret sein. Zwischen zwei aufeinanderfolgenden Ausprägungen kann nichts beobachtet werden. Auf einer diskreten Achse sind sozusagen Lücken. Wieder fallen uns als Beispiele ein: Geschlecht, Schulnoten, Verkaufszahlen. Definition 1.7: Stetiges Merkmal Ist die Menge der Ausprägungen überabzählbar groß, d.h. unendlich und nichtabzählbar, nennen wir ein Merkmal stetig. Eine stetige Achse weist keine Lücken auf. Zwischen zwei beliebigen diskreten Punkten liegen überabzählbar viele weitere Punkte. Nur kardinalskalierte Daten können stetig sein. In der praktischen Datenanalyse gibt es oft Grenzfälle in Bezug auf die Zuordnung. Als Beispiele merke sich der Leser Größe, Gewicht, Dauer. Das Skalenniveau bestimmt, welche Berechnungen auf den Daten erlaubt sind und wie man die Daten geeignet graphisch darstellen kann. Die Tabelle 1.1 listet verschiedene Zahlenmengen kardinaler Metriken und ihre Bezeichungen auf. Diese Mengen treffen wir immer wieder an. Die Mächtigkeit nimmt mit Durchlaufen der Tabelle zu. Symbol Ausprägungen Bezeichnung N 0,1,2,3,... Natürliche Zahlen Z 2, 1,0,1,2,... GanzeZahlen Q 1, 3, 4 5, 3 6,... Rationale Zahlen R 2, π, e, 3,... Reelle Zahlen (irrationale und transzendente) C 1, 4, 0, 5,... Komplexe Zahlen Tab. 1.1: Ausprägungen kardinaler Merkmale 19

Datenanalyse? Daten? Statistik? 1.2 Wo kommen Daten her? Dieser Überschrift könnte problemlos ein eigenes Buch gewidmet werden. Wir wollen an dieser Stelle nicht so sehr in die Tiefe schauen und lediglich eine grundsätzliche Idee vermitteln, auf welche Arten und Weisen man zu Datenmaterial kommt. Zunächst einmal sei angemerkt, dass die Datenbeschaffung in erster Linie von der Problemstellung abhängt. Bevor man sich auf die Suche nach Daten begibt, sollte man sich Klarheit darüber verschaffen, wobei einem das Datenmaterial eigentlich weiterhelfen soll, welche Frage damit zu beantworten ist. Mit anderen Worten: Es ist ausführlich über das initiierende Problem, dessen Formulierung sowie der notwendigen Schritte zur Abarbeitung nachzudenken. Auf einer hohen Ebene kann die Datenbeschaffung nach der Verfügbarkeit unterschieden werden: Im Falle der Erhebung sind die Daten im Prinzip vorhanden, sie müssen lediglich realisiert werden, z.b. durch Befragung bzw. Beobachtung. Im Gegensatz dazu wird beim Experiment zunächst ein (künstlicher) Datenerzeugungsprozess gestartet. Werden Daten ganz gezielt vor dem Hintergrund des aktuellen Forschungshintergundes erhoben, spricht man von einer Primärstatistischen Erhebung. Greift man dagegen auf existierendes Datenmaterial zurück, welches ursprünglich zu anderen Zwecken erhoben wurde und das nun in Bezug auf ein neues Problem interpretiert wird, handelt es sich um eine Sekundärstatistische Erhebung. Ist das Datenmaterial zusätzlich einem Transformationsprozess unterzogen worden (Mittelwerte, Standardisierung, usw.), nennt man dies eine Tertiärstatistische Erhebung Datenerhebungen kann man des weiteren nach der Vollständigkeit in Bezug auf die zur Verfügung stehenden Untersuchungseinheiten unterscheiden, die sich in der Erhebung wiederfinden. Das sind die Totalerhebung und die Teilerhebung oder Stichprobe. Grundsätzlich gilt: Je mehr Daten desto besser bzw. desto genauer ist die Aussagekraft, die sich mit Hilfe der realisierten Daten erzielen lässt. Das spricht für die Totalerhebung. In einer konkreten Analysesituation wird es aber in der Regel so sein, dass eine Totalerhebung nicht in Frage kommt zeitliche Beschränkungen, finanzielle Beschränkungen, nicht sinnvoll ist Effizienz oder sogar gar nicht möglich ist man stelle sich vor, das Beobachten zieht die Zerstörung der Untersuchungseinheit nach sich oder es gibt unendlich viele mögliche Beobachtungen. Vor allem ist es in der Regel aber so, dass es gar nicht notwendig ist, sämtliche potentiell beobachtbaren 20

1.2 Wo kommen Daten her? Untersuchungseinheiten auch zu berücksichtigen. Wenn man die Stichprobe einigermaßen geschickt zusammenstellt Repräsentativität,kann man diese dazu benutzen, auf die Eigenschaften der übrigen, bei der Analyse nicht berücksichtigten Einheiten, zu schließen. Auf der Seite 22 ist dagegen ein Beispiel für eine Totalerhebung zu finden. Überlegen Sie, warum in diesem Fall eine Totalerhebung sinnvoll ist. Beim Experiment muss zunächst eine Situation (künstlich) erschaffen werden, diedazuführt, dass man die gewünschten Daten beobachten kann. Wichtig ist hier ein gut durchdachter Versuchsplan, der die verschiedenen Einflussfaktoren miteinander kombiniert, sodass die Größe der interessierenden Effekte (einzelne und gemeinsame Effekte) beobachtet werden kann. Beispielsweise könnte man an den Ernteerträgen einer bestimmten Getreidesorte interessiert sein. Je nachdem welche Bodenart, welcher Dünger, welche Bewässerung und welche Lichtintensität (bzw. Kombinationen daraus) vorliegen, wird die Ernte anders ausfallen. Das Ziel beim Experiment ist es herauszufinden, wie die Einflüsse der verschiedenen Faktorkombinationen sich auf das Ergebnis auswirken. 21

Datenanalyse? Daten? Statistik? Abb. 1.1: Erhebungsbogen zur Volkszählung 22

Zusammenfassung 1.2 Wo kommen Daten her? Wir haben uns auf den letzten Seiten mit grundsätzlichen Fragen zur Statistik auseinandergesetzt: Was ist Statistik, warum benötigt man die Statistik, und: welche Bedeutung kommt dieser Disziplin zu? Wir haben eine Vorstellung davon, was man so tut als Statistiker. Wo begegnen uns Daten, wie gelangt man zu diesen, und was für eine Qualität weisen sie auf? Was existieren für Möglichkeiten, Daten zu systematisieren? Wie steht die Datenanalyse im Verhältnis zur Statistik? Aufgaben 1. In Abbildung 1.1, S. 22, ist die erste Seite des Fragebogens der Volksbefragung von 1987 zu sehen. Was für Eigenschaften haben die abgefragten Merkmale in Bezug auf Skalenniveau bzw. Mächtigkeit? 2. Wie ist eine solche Totalerhebung zu rechtfertigen? Dies vor allem vor dem Hintergrund, dass regelmäßig der sogenannte Mikrozensus als Teilerhebung durchgeführt wird. 3. Schauen Sie einmal gewissenhaft ihre Tageszeitung durch und zählen Sie die Anzahl der statistisch motivierten Darstellungen bzw. Aussagen. Ist alles ersichtlich und nachvollziehbar? 4. Lesen Sie einmal bei POPPER [1994] (z.b. Alles Leben ist Problemlösen ) über (praktisches) wissenschaftliches Arbeiten nach. Zum Thema Wissenschaftstheorie ist die Einführung in die Wissenschaftstheorie von SEIFFERT [1973] zu empfehlen. 23