Erfassung von Internetfragebögen mit SAS Wolf F. Lesener Humboldt-Universität zu Berlin Rechenzentrum 1
Potenziale von Datenerhebungen in Netzen 1 Zeit- und Kostenersparnis Mehrfachverwendung Teilnehmerrekrutierung Einbindung in weitere Abläufe 1 D. Janetzko Statistische Anwendungen im Internet Addison-Wesley 1999 2
Probleme bei Datenerhebungen in Netzen 1 Fehlende Repräsentativität Selbstselektion und Selbstrekrutierung, Teilnehmermotivation Fehlende Kontrolle situativer Merkmale Als repräsentativ wird eine Stichprobe angesehen, wenn jede Beobachtungseinheit der Grundgesamtheit die gleiche Chance hatte, in die Stichprobe einzugehen (Zufallsstichprobe oder wenn in Abhängigkeit von der Zusammensetzung der Grundgesamtheit die Stichprobe entsprechend anteilig zusammengesetzt wird. 1 S. 141 1 D. Janetzko Statistische Anwendungen im Internet Addison-Wesley 1999 3
Voraussetzung Es ist gründlich zu prüfen, ob eine Umfrage über das Internet das geeignete Arbeitsmittel ist. 4
Informationsfluß Client Client Client Client Fragebogen http Mail User Agent: FormMail (Perl - Verfahren 1. HTML auf FormMail vom Auftraggeber fixiert open etc -Freeware 2. Validation 3. Modifikationen Mailbox send MailTool Eudora - arbeitet formularunabhängig 1 Browser: save as Internet Explorer emails Opera - bestimmt a u.a. Umfragetechniken das Format des Mail-Bodys Textfile Netscape Navigator check mail b verfahrensspezifisch CGI-Programm MailTransferAgent formmail sendmail WWW Server SMTP Server POP3 Server 1 im Zusammenhang mit Datenerfassung von Internetfragebögen nebensächlich Teilnehmer, Probanden Auftraggeber, Interviewer Provider, Rechenzentrum 5
Erforderliche Kenntnisse Computer-Sprachen Auftraggeber Entwickler (RZ Proband HTML gut sehr gut JavaScript gut Cascaded Style Sheets gut gut Perl gering Base SAS Language gering sehr gut sehr gut = selbständig kreativ; gut = an Beispielen orientiert; gering = black-box-anwendung 6
Der Kern: HTML Formular FORM -Formular INPUT - Eingabefeld gemäß TYPE= SELECT - Auswahlliste OPTION - Optionen zu SELECT TEXTAREA - mehrzeiliger Text Script Programmierung (JavaScript, VB,... zur Auswertung von Ereignisattributen 7
Umfragetechniken 2 Zufallsauswahl der Stichprobe (nth viz Kontrolle des Non-Response Plausibilitäts- und Konsistenzkontrollen One-Screen-One-Question Filterführung Fortschrittsanzeige 2 http://www.demotopia.de Methoden der Online-Befragung 8
Die Testumgebung Entwickler Browser: Internet Explorer Opera Netscape Navigator Fragebogen http send 1 MailTool Eudora check mail open etc save as Mailbox emails Textfile CGI-Programm winformmail WWW Server MailTransferAgent MailTransferAgent SMTP Proxy Server mailit sendmail S a m b a r S e r v e r SMTP Server POP3 Server 1 im Zusammenhang mit Datenerfassung von Internetfragebögen nebensächlich Auftraggeber, Entwickler Provider, Rechenzentrum 9
Software Sambar Server 5.0 ActivePerl Build 522 FormMail 1.6 (1.9 (-> winformmail.pl SAS 8.2 Eudora 5.1 Internet Explorer 6.0 Netscape Navigator 6.2 Opera 6.0 10
Datenaggregation _IP LINK IP LINK IP LINK_ Jede Datenzeile email enthält einige email technisch bedingte zusätzliche email Variablen. Proband 1 Fragekomplex 1 (Formular 1 email Proband n Fragekomplex 1 (Formular 1 Proband 1 Fragekomplex 2 (Formular 2 email Proband n Fragekomplex 2 (Formular 2...... Proband 1 Fragekomplex k (Formular k Eine aktuelle Datentabelle wird über die Felddauer email email Jeder Fragekomplex mit PROC email APPEND Proband 2 Proband 2 Proband Für das Match fortgeschrieben.... 2 Fragekomplex 1 Merge enthält Jedes jede Fragekomplex Eingabefeld 2 email zwei (Formular (Variable Schlüssel Fragekomplex bildet k : (Formular 1 (Formular 2 (Formular k Evtl. _IP_ mehrfach übergeordnet: erfaßte Fragebögen bildet IP-Adresse eine werden Spalte ein nach der Segment Datentabelle Ablauf der Felddauer Die _LINK_ Anzahl abgefiltert. untergeordnet: der zurückgesandten (Evaluierungsschritt Zeit in Fragebögen ms (loadder Formular Datentabelle begrenzt 1 den Stichprobenumfang n Jeder Fragebogen... (Proband... bildet eine Zeile der. Datentabelle.. Je Tabellenzeile enthalten _IP_ und _LINK_ konstante Werte, d.h. es genügt, sie einmal permanent zu speichern. email Proband n Fragekomplex k (Formular k 11
Generieren eines email-interpreters Empfehlungen: HTML- Warum? Formulare PC Mailbox emails Voraussetzungen: HTML Konstruktion Wie? Dokumente des Fragebogens enthalten im mit Kontext Tabellen bereits die Metaabfiltern Informationen Syntaktisch validierte HTML 4.0 Dokumente Vorsichtiger Aufruf des Generatorprogramms Einsatz (Variablen-Attribute von JavaScript (SAS zur und Programm Erzeugung und ASCII- VB (Möglichkeiten der SAS Ausgabe Datentabelle: Geringe sind dann Ausgabe Anpassungen, so NAME, komplex, eines TYPE, Ablaufprotokolls daß z.b. sich bei LABEL, numerischen Verträglichkeit FORMAT, Eingabefeldern nicht LENGTH exakt Dictionary email- Ein ist beschreiben Generatorprogramm kein Ausgabe TYPE="text" läßt von - ggf. Namensverzeichnissen zu Experimente minimiert vereinbaren den nötig Tastaufwand und Ausgabe des email-interpreters Interpreter emails liefert als SAS Programm Namen Einrichtung immer sollten einer syntaktisch max. Testumgebung 8 Zeichen fehlerfreien - nur auf Code. Buchstaben, dem PC Ziffern und email- Underline Nacheditieren enthalten des generierten und Interpreter HTML mit Buchstabe email-interpreters beginnen Bei speziellen Dokumente Umfragetechniken ändert der Auftraggeber Interpreter editieren zur Steuerung gern und von häufig, d.h. Namen FormMail es sind der u.u. am konfigurierenden Beispiel vom Rechenzentrum orientieren Variablen bereits von geleistete FormMail sind Arbeiten reservierte mit Namen möglichst geringem Aufwand zu SAS wiederholen Tab. 12
Ein Beispiel Sambar Server starten Fragebogen (Internet Explorer eingehende emails (Eudora Generator starten Das Interpreter-Programm Editierten Interpreter starten Die SAS Datentabelle SAS 13
14