IBM SPSS Data Preparation

IBM Software IBM SPSS Statistics 19 IBM SPSS Data Preparation Bessere Datenvorbereitung für genauere Ergebnisse Highlights Einfache Identifikation verdächtiger oder ungültiger Fälle, Variablen und Datenwerte Anzeige von Mustern fehlender Daten Zusammenfassung von Variablenverteilungen Genauere und schnellere Datenvorbereitung für die Analyse Alle Forscher müssen ihre Daten vor einer Analyse vorbereiten. IBM SPSS Statistics* umfasst bereits Tools für die Datenvorbereitung. Doch manchmal werden spezielle Methoden benötigt. Mit IBM SPSS Data Preparation* können Sie auf einfache Weise verdächtige oder ungültige Fälle, Variablen und Datenwerte erkennen, Muster von fehlenden Daten sehen, Variablenverteilungen zusammenfassen und präziser mit Algorithmen arbeiten, die für nominale Attribute vorgesehen sind. Dadurch wird die Datenvorbereitung optimiert. Analysen können schneller durchgeführt werden und erzielen genauere Ergebnisse. Sie können sich für eine vollständig automatisierte Datenvorbereitung für schnelle Ergebnisse entscheiden oder mehrere andere Methoden wählen, um anspruchsvolle Datensätze zu bearbeiten. IBM SPSS Data Preparation kann nur als Client-Software installiert werden, aber zur Verbesserung der Leistung und Skalierbarkeit ist auch eine serverbasierte Version verfügbar. Wählen Sie aus mehreren Optionen für die Datenvorbereitung: Datenvalidierung Die Datenvalidierung erfolgte bisher manuell. Dabei erstellen Sie eine Häufigkeitsanalyse Ihrer Daten, drucken die Häufigkeiten aus, markieren die Punkte, die korrigiert werden müssen und suchen nach Fall-IDs. Das ist zeitaufwändig, und da wahrscheinlich jeder Analyst in Ihrem Unternehmen eine eigene Methode verwendet, ist die Konsistenz zwischen einzelnen Projekten schwer zu realisieren. Mit der Datenvalidierung können manuelle Überprüfungen vermieden werden. Bei dieser Methode werden Regeln verwendet, mit denen Daten auf der Grundlage des Messniveaus der einzelnen Variablen überprüft werden (kategorial oder stetig). Wenn Sie beispielsweise Umfragedaten mit Variablen auf einer 5-stufigen Likert-Skala analysieren, können Sie mit der Datenvalidierung eine Regel für 5-stufige Skalen anwenden und alle Fälle markieren, die Werte außerhalb des Bereichs 1-5 besitzen. Sie erhalten Berichte über ungültige Fälle sowie eine Zusammenfassung über Regelverletzungen und die Anzahl von betroffenen Fällen. * IBM SPSS Statistics und IBM SPSS Data Preparation waren bisher bekannt unter den Namen PASW Statistics und PASW Data Preparation.

Außerdem können Sie Validierungsregeln für einzelne Variablen (beispielsweise Bereichsüberprüfungen) und variablenübergreifende Überprüfungen (beispielsweise schwangere Männer ) durchführen. Auf dieser Grundlage können Sie die Gültigkeit von Daten überprüfen und auf Wunsch verdächtige Fälle vor der Analyse entfernen oder korrigieren. Automatische Datenvorbereitung in nur einem Schritt Die manuelle Datenvorbereitung ist ein komplexer Prozess, der bei einem Projekt 40 bis 90 Prozent der Zeit eines Analysten in Anspruch nehmen kann. Wenn Sie schnelle Ergebnisse benötigen, können Sie mit der automatischen Datenvorbereitung (Automated Date Preperation, ADP) in nur einem Schritt qualitative Fehler ermitteln und korrigieren und fehlende Werte imputieren. Die ADP-Funktion erstellt einen leicht verständlichen Bericht mit umfassenden Empfehlungen und Visualisierungen, der Sie dabei unterstützt, die Daten zu ermitteln, die in Ihrer Analyse verwendet werden müssen. Die Automated Data Preparation-Funktion bietet Empfehlungen und erlaubt es Benutzern, diese Empfehlungen zu durchsuchen und zu überprüfen. Anomalieerkennung Verhindern Sie mit der Anomalieerkennung, dass Ausreißer Analysen verfälschen. Dabei wird auf der Basis von Abweichungen von ähnlichen Fällen nach auffälligen Fällen gesucht, die solche Abweichungen verursachen. Sie können Ausreißer durch das Erstellen einer neuen Variablen kennzeichnen. Sobald Sie auffällige Fälle identifiziert haben, können Sie sie näher untersuchen und festlegen, ob sie in Ihrer Analyse berücksichtigt werden sollen. 2

Optimales Klassieren Um Algorithmen zu verwenden, die für nominale Attribute gelten (beispielsweise Naïve Bayes und Logit-Modelle), müssen Sie Ihre Skalenvariablen vor der Erstellung des Modells klassieren. Wenn Skalenvariablen nicht klassiert werden, benötigen bestimmte Algorithmen wie beispielsweise die multinominale logistische Regression extrem viel Zeit für die Verarbeitung, oder sie konvergieren nicht. Dies gilt vor allem, wenn Sie mit großen Datensätzen arbeiten. Außerdem sind die entsprechenden Ergebnisse oft schwer zu verstehen und lassen sich schlecht interpretieren. Bei der optimalen Klassierung können Sie Trennwerte angeben, um das bestmögliche Ergebnis für Algorithmen für nominale Attribute zu erzielen. Diese Prozedur stellt drei Klassierungstypen zur Auswahl, mit denen Daten vor der Modellerstellung vorbereitet werden können: Nicht überwacht: Erstellt Klassierungen mit gleichen Zählungen Überwacht: Berücksichtigt bei der Erstellung von Trennwerten die Zielvariable Diese Methode ist genauer als die nicht überwachte Methode. Allerdings ist sie auch berechnungsintensiver. Hybridansatz: Kombiniert die nicht überwachte und überwachte Methode. Diese Methode ist besonders hilfreich, wenn Sie mit einer großen Menge unterschiedlicher Werte arbeiten. Um Posten effizient gemeinsam zu nutzen und wiederzuverwenden, sie auf eine Art zu schützen, die internen und externen Compliance- Anforderungen gerecht wird, und die Ergebnisse zu veröffentlichen, sodass mehr Unternehmensanwender die Ergebnisse anzeigen und mit ihnen interagieren können, sollten Sie in Erwägung ziehen, IBM SPSS Statistics mit IBM SPSS Collaboration and Deployment Services** zu erweitern. Weitere Informationen über diese wertvollen Funktionen erhalten Sie unter www.spss.com/software/deployment/cds. Unsere Statistiksoftware ist nun in drei verschiedenen Editionen erhältlich: IBM SPSS Statistics Standard, IBM SPSS Statistics Professional und IBM SPSS Statistics Premium. Diese Editionen fassen wichtige Funktionalitäten zusammen. So können Sie effizient sicherstellen, dass Ihrem gesamten Team oder Ihrer Abteilung alle Funktionen zu Verfügung stehen, die sie benötigen, um die Analysen zu erstellen, die den Erfolg Ihres Unternehmens garantieren. * IBM SPSS Collaboration und Deployment Services war bisher bekannt unter dem Namen PASW Collaboration and Deployment Services. 3

Funktionen Automatisierte Datenvorbereitung Empfehlungen für eine schnellere Modellerstellung und eine verbesserte Vorhersagefähigkeit: Ziel definieren: Geschwindigkeit und Genauigkeit ausgleichen, Optimierung für Geschwindigkeit, Optimierung für Genauigkeit oder Anpassen von Analysen Vorbereitung von Daten und Zeiten für die Modellierung: Berechnen der Zeit bis zu einem Referenzdatum Berechnen der Zeit bis zu einer Referenzzeit Extrahieren zyklischer Zeitelemente Ausschließen von minderwertigen Eingabefeldern: Ausschließen von Feldern mit zu vielen fehlenden Werten Ausschließen von nominalen Feldern mit zu vielen eindeutigen Kategorien Ausschließen von kategorialen Feldern mit zu vielen Werten in einer einzelnen Kategorie Anpassen von Messniveaus: Anpassen der Messniveaus numerischer Felder Vorbereiten von Feldern zur Verbesserung der Datenqualität: Ausreißerbearbeitung Ersetzen fehlender Werte Neuanordnung nominaler Felder Neuskalieren von Feldern: Analysengewichtung Kontinuierliche Eingabefelder Kontinuierliche Zielfelder Transformierung von Feldern: Verwenden von kategorialen und/ oder kontinuierlichen Eingabefeldern Funktionsauswahl und Erstellung Namensfelder: Transformierte und konstruierte Felder Berechnete Dauer Extrahierte zyklische Zeitelemente Anwenden von Transformationen auf Daten Datenvalidierung Mit der Datenvalidierung können Sie die Daten in der zu bearbeitenden Datendatei validieren: Grundlegende Überprüfungen: Legen Sie grundlegende Überprüfungen fest, die auf Variablen und Fälle in Ihrer Datei angewendet werden sollen. Erstellen Sie beispielsweise Berichte, die Variablen mit einem hohen Anteil fehlender Werte oder leerer Fälle identifizieren: Maximaler Prozentsatz fehlender Werte Maximaler Prozentsatz von Fällen in einer einzelnen Kategorie Maximaler Prozentsatz von Fällen mit einem Zähler von 1 minimaler Variationskoeffizient Minimale Standardabweichung Markieren unvollständiger IDs Markieren doppelter IDs Markieren leerer Fälle Standardregeln: Beschreiben der Daten, Anzeigen von Einzelvariablenregeln und Anwendung dieser Regeln auf Analysevariablen: Beschreibung der Daten: Verteilung: Zeigt ein Miniatursäulendiagramm für kategoriale Variablen oder ein Histogramm für Skalenvariablen an. Anzeige der minimalen und maximalen Datenwerte Einzelvariablenregeln: Anwenden von Regeln auf einzelne Variablen, um fehlende oder ungültige Werte zu identifizieren, beispielsweise Werte außerhalb eines gültigen Bereichs Benutzerdefinierte Einzelvariablenregeln sind auch möglich Benutzerdefinierte Regeln: Definieren von variablenübergreifenden Regelausdrücken, in denen die Antworten der Befragten nicht logisch sind (z. B. männlich und schwanger ) Ausgabe: Berichte, die ungültige Daten beschreiben: Fallweise Berichte, die Verletzungen von Validierungsregeln nach Fall auflisten: Festlegen der Mindestanzahl von Verletzungen, damit ein Fall im Bericht aufgenommen wird Festlegen der maximalen Anzahl von Fällen in einem Bericht 4

Berichte zu Standardvalidierungsregeln: Auswertung der Verletzungen nach Analysevariable Auswertung der Verletzungen nach Regel Anzeigen deskriptiver Statistiken Speichern: Sie können Variablen speichern, die Regelverletzungen aufzeichnen, und diese verwenden, um Daten zu bereinigen und fehlerhafte Fälle herauszufiltern: Auswertungsvariablen: Indikator für leere Fälle Indikator für doppelte IDs Indikator für unvollständige IDs Verletzung von Validierungsregeln (Gesamt) Indikatorvariablen für die Aufzeichnung aller Validierungsregelverletzungen Ungewöhnliche Fälle identifizieren Die Anomalieerkennung sucht auf der Basis von Abweichungen von der Gruppe nach auffälligen Fällen und gibt Begründungen für solche Abweichungen: Festlegen von Variablen, die von der Prozedur verwendet werden sollen, mit dem Unterbefehl VARIABLES. Festlegen von kategorialen, kontinuierlichen und ID-Variablen (zur Identifizierung von Fällen) und Auflisten von Variablen, die von der Analyse ausgeschlossen wurden. Der Unterbefehl HANDLEMISSING legt die Methoden fest, mit denen fehlende Werte in dieser Prozedur behandelt werden sollen: Verarbeitung fehlender Werte anwenden. Wenn diese Option ausgewählt wird, werden Gesamtmittelwerte für fehlende Werte kontinuierlicher Variablen ersetzt, und fehlende Kategorien kategorialer Variablen werden kombiniert und wie gültige Kategorien behandelt. Die verarbeiteten Variablen werden anschließend in der Analyse verwendet. Wenn diese Option nicht gewählt wird, werden Fälle mit fehlenden Werten aus der Analyse ausgeschlossen. Zusätzliche Variable Anteil fehlender Variablen erstellen und in Analyse verwenden. In diesem Fall wird eine zusätzliche Variable Anteil fehlender Variablen erstellt, die den Anteil fehlender Variablen in jedem Datensatz repräsentiert. Diese Variable wird in der Analyse verwendet. Wird diese Option nicht ausgewählt, wird die Variable für den Anteil fehlender Variablen nicht erstellt. Der Unterbefehl CRITERIA legt folgende Einstellungen fest: Mindest- und Höchstanzahl von Gruppen Anpassungsgewichtung für Messniveau Anzahl von Gründen in Anomalieliste Prozentsatz von Fällen, die als Anomalien gelten und in Anomalieliste aufgeführt werden Anzahl von Fällen, die als Anomalien gelten und in Anomalieliste aufgeführt werden Trennwert des Anomalie-Index, der festlegt, ob ein Fall als Anomalie gilt Mit dem Unterbefehl SAVE können Sie zusätzliche Variablen in der zu bearbeitenden Datendatei speichern: Anomalie-Index Gruppen-ID Gruppen-Größe Gruppen-Größe in Prozent Variable, verknüpft mit Grund Einflussmaß der Variablen, verknüpft mit Grund Variablenwert, verknüpft mit Grund Normwert, verknüpft mit Grund Mit dem Unterbefehl OUTFILE können Sie das Modell zu einem angegebenen Dateinamen als XML schreiben. Mit dem Unterbefehl PRINT steuern Sie die Anzeige der Ausgabeergebnisse. Sie können folgende Inhalte drucken: Zusammenfassung der Fallverarbeitung Anomalie-Indexliste, Anomalie- Gruppen-ID-Liste und Liste der Anomaliegründe 5

Tabelle der Normen für stetige Variablen, sofern stetige Variablen in der Analyse verwendet werden, und der Normen für kategoriale Variablen, sofern kategoriale Variablen in der Analyse verwendet werden Zusammenfassung des Anomalie- Index Tabelle mit Zusammenfassungen von Gründen für jeden Grund: Jede angezeigte Ausgabe unterdrücken außer der Hinweistabelle und Warnungen Optimales Klassieren Bereiten Sie Daten durch optimales Klassieren vor. Dabei werden eine oder mehrere stetige Variablen durch Verteilen der einzelnen Variablenwerte in Klassen kategorisiert. Dieser Vorgang hilft, die Anzahl von Werten in bestimmten Klassierungs- Eingabevariablen zu reduzieren. Dadurch kann die Leistungsfähigkeit von Algorithmen deutlich gesteigert werden. Bei der Verwendung bestimmter Methoden zur optimalen Klassierung hilft eine Führungsvariable dabei, Trennwerte festzulegen. Dadurch wird die Beziehung zwischen Führungsvariable und klassierter Variable optimiert. Wählen Sie eine der folgenden Methoden: Unüberwachte Klassierung über den Algorithmus für gleiche Häufigkeiten. Diese Methode verwendet gleiche Häufigkeiten, um die Klassierungseingabevariablen zu diskretisieren. Eine Führungsvariable ist nicht erforderlich. Überwachte Klassierung mittels des MDLP-Algorithmus (Minimal Description Length Principle). Bei dieser Methode werden die Eingabevariablen ohne Vorbereitung mittels des MDLP- Algorithmus diskretisiert. Dies ist sinnvoll bei Datensätzen mit wenigen Fällen. Eine Führungsvariable ist erforderlich. Hybrid-MDLP-Klassierung. Hierfür ist eine Vorbereitung über den Algorithmus für gleiche Häufigkeiten, gefolgt vom MDLP-Algorithmus, erforderlich. Diese Methode eignet sich für Datensätze mit vielen Fällen. Eine Führungsvariable ist erforderlich. Legen Sie die folgenden Kriterien fest: Wie soll der minimale Trennwert für die einzelnen Klassierungseingabevariablen definiert werden? Wie soll der maximale Trennwert für die einzelnen Klassierungseingabevariablen definiert werden? Wie soll der untere Grenzwert eines Intervalls definiert werden? Sollen dünn besetzte Klassen zusammengeführt werden? Sollen fehlende Werte listenweise oder paarweise gelöscht werden? Speichern Sie Folgendes: Neue Variablen mit klassierten Werten Syntax in einer IBM SPSS Statistics Base-Syntaxdatei Kontrolle der Ausgabeergebnisanzeige über den Unterbefehl PRINT. Sie können folgende Inhalte drucken: Die Trennwertsets der Klassierungseingabevariablen Beschreibende Informationen für alle Klassierungseingabevariablen Modellentropie für klassierte Variablen Systemvoraussetzungen Anforderungen variieren je nach Plattform. Einzelheiten finden Sie unter www.spss.com/de/statistics. 6

Informationen zu IBM Die Software IBM liefert umfassende, einheitliche und korrekte Informationen, denen Entscheidungsträger zum Verbessern der Unternehmensleistung vertrauen. Ein umfassendes Portfolio aus Geschäftsvorteilen, fortgeschrittener Analytik, finanziellen Vorteilen und Strategiemanagement sowie Analyseanwendungen bietet Ihnen sofort klare und umsetzbare Einblicke in die aktuelle Leistung und gibt Ihnen die Möglichkeit, zukünftige Ergebnisse vorherzusagen. Als Teil dieses Portfolios unterstützt IBM SPSS Predictive Analytics Software Organisationen, zukünftige Ereignisse vorherzusagen und proaktiv auf Basis dieser Erkenntnisse zu handeln, um bessere Geschäftsergebnisse zu erzielen. Kunden aus den Bereichen Wirtschaft, öffentlicher Verwaltung und Lehre verlassen sich weltweit auf IBM SPSS Technologie als Wettbewerbsvorteil zur Kundengewinnung, -bindung und Erhöhung der Kundenumsätze bei gleichzeitiger Betrugsreduzierung und Risikominimierung. Durch die Integration von IBM SPSS Software in ihre täglichen Prozesse werden Organisationen zur Predictive Enterprise sie sind dadurch in der Lage Entscheidungen zu treffen und zu automatisieren, um die Geschäftsziele zu erreichen und einen messbaren Wettbewerbsvorteil zu gewinnen. Für mehr Informationen besuchen Sie bitte www.ibm.com/spss/de. 7

Copyright IBM Corporation 2010 IBM Corporation Route 100 Somers, NY 10589 Eingeschränkte Rechte für Mitarbeiter der US-Regierung Benutzung, Duplizierung und Veröffentlichung beschränkt durch GSA ADP Schedule-Vertrag mit IBM Corp. Hergestellt in den USA Mai 2010 Alle Rechte vorbehalten IBM, das IBM Logo, ibm.com, WebSphere, InfoSphere und Cognos sind Marken oder eingetragene Marken der International Business Machines Corporation in den USA und/oder anderen Ländern. Wenn diese oder andere eingetragene Markenbegriffe von IBM mit einem Markenzeichen ( oder TM) gekennzeichnet sind, wenn Sie zum ersten Mal in diesen Informationen vorkommen, weist dies darauf hin, dass es sich zum Zeitpunkt der Veröffentlichung dieser Informationen um in den USA eingetragene Marken oder Marken nach Gewohnheitsrecht von IBM handelt. Solche Marken können auch in anderen Ländern eingetragene Marken oder Marken nach Gewohnheitsrecht sein. Eine aktuelle Liste der Marken von IBM finden Sie im Internet unter Copyright and trademark information (www.ibm. com/legal/copytrade.shtml). SPSS ist eine Marke von SPSS, Inc., an IBM Company, die in vielen Gerichtsbezirken weltweit eingetragen ist. Weitere Unternehmens-, Produkt- und Servicenamen können Marken anderer Hersteller sein Bereiten Sie bitte auf software YTD03016DEDE-02