Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems. Reinhard Strüby. SAS Institute. Abstract

Ähnliche Dokumente
Neue Statistische Verfahren und interaktive Analysen in der Version 8e des SAS Systems

Werkzeuge der empirischen Forschung

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Einführung in die Statistik

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1

Arbeitsbuch zur deskriptiven und induktiven Statistik

Teil: lineare Regression

Statistische Datenanalyse

Vorlesung: Statistik II für Wirtschaftswissenschaft

JMP 10 Student Edition Quick Guide

Erwin Grüner

Einführung in die Statistik

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Multivariate Verfahren

1 Univariate Statistiken

Datenmanagement und Datenanalyse mit dem SAS-System

6.2 Lineare Regression

Häufigkeitsdiagramme PROC UNIVARIATE PROC GCHART

Die Regressionsanalyse

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistik II Übung 1: Einfache lineare Regression

Statistische Messdatenauswertung

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Statistik, Geostatistik

Einführung in die computergestützte Datenanalyse

Robuste und effiziente Konfidenzbereiche für nichtzentrale Perzentile

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Statistik II Übung 1: Einfache lineare Regression

Statistik für Ökonomen

Lineare Regression in R, Teil 1

Übung V Lineares Regressionsmodell

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Multivariate Verfahren

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Die Funktion f wird als Regressionsfunktion bezeichnet.

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

1 Einführung Ökonometrie... 1

Willkommen zur Vorlesung Statistik (Master)

Hypothesentests mit SPSS

Lineare Regression und Varianzanalyse

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Optimierung der Variablen-Selektion für die PLS-Regression

angewandte Statistik

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Prognoseintervalle für y 0 gegeben x 0

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Lineare Modelle in R: Klassische lineare Regression

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Statistisches Methodenbuch

Lehrinhalte Statistik (Sozialwissenschaften)

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

Inhaltsverzeichnis. Vorwort

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Jost Reinecke. Strukturgleich ungsmodelle. Sozialwissenschaften. 2., aktualisierte und erweiterte Auflage DE GRUYTER OLDENBOURG

Multivariate Statistische Methoden

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Multivariate Statistische Methoden und ihre Anwendung

SAS Standardprozeduren zur nichtparametrischen Datenanalyse

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Statistik für. von. Prof. Dr. Josef Bleymüller. und. Prof. Dr. Rafael Weißbach. sowie. Dr. Günther Gehlert. und. Prof. Dr.

Statistische Methoden in der Geographie

Logistische Regression in SAS

Kapitel 5. Prognose. Zeitreihenanalyse wird aus drei Gründen betrieben: Beschreibung des Verlaufs von Zeitreihen.

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Statistische Methoden in der Wirtschaftsund Sozialgeographie

1. Datei Informationen

SAS-Online Dokumentation: zu finden über Internetsuche nach sas online documentation

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Das Lineare Regressionsmodell

6. Multivariate Verfahren Übersicht

Deskriptive Statistik

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Moderne Methodik bei der Analyse von Mietspiegeln

Wahrscheinlichkeitsrechnung und schließende Statistik

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Agenda. Eine gute Basis: SAS Base und SAS Graph. Neue Graph Prozeduren Neuerungen in SAS Base Live Demo ausgesuchter Codes.

Statistik II Übung 2: Multivariate lineare Regression

7. Zusammenfassung. Zusammenfassung

Streuungsmaße. Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre Varianz (empirische) Varianz (Streuung) s 2 = 1 n

Fortgeschrittenes Programmieren mit R. Christoph Beck. Di, 14:00-15:30 (3065)

Datenanalyse. eine Einführung. Klaus Diepold. Lehrstuhl für Datenverarbeitung Technische Universität München

Statistik für Ökonomen

1 Beispiel zur Methode der kleinsten Quadrate

Statistik in Geodäsie, Geoinformation und Bauwesen

B. Regressionsanalyse [progdat.sav]

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

fh management, communication & it Constantin von Craushaar FH-management, communication & it Statistik Angewandte Statistik

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Transkript:

Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems 1 Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems Reinhard Strüby SAS Institute Abstract Im Rahmen des Nashville-Projekts wurden auch die statistischen Module des SAS Systems um neue Funktionalitäten erweitert, die sich in weiterentwickelten und völlig neuen Prozeduren zeigen: SAS/INSIGHT Software unterstützt multivariate Analysetechniken wie Hauptkomponenten- Rotationsanalysen, Kanonische Korrelationsanalyse, Maximum-Redundanzanalyse, Kanonische Diskriminanzanalyse und Mittelwertsvergleiche. SAS/STAT Software wird durch zusätzliche Prozeduren erweitert: PLS, KRIGE2D, VARIOGRAM, SURVEYSELECT, SURVEYMEANS, SURVEYREG, KDE, LOESS, TPSPLINE und NLMIXED. SAS/ETS Software ist in verschiedenen Prozeduren ergänzt worden und bietet ein stark überarbeitetes Zeitreihenvorhersage-Menüsystem, welches ein integriertes Arbeiten mit den ETS- Prozeduren ermöglicht. SAS/INSIGHT SAS/INSIGHT SAS/INSIGHT unterstützt weitere multivariate Analysetechniken wie Hauptkomponenten- Rotationsanalysen, Kanonische Korrelationsanalyse, Maximum-Redundanzanalyse, Kanonische Diskriminanzanalyse und Mittelwertsvergleiche. Es werden neue robuste Streuungsmaße berechnet als auch Tests auf Normalität univariater Daten angeboten. Multiple Mittelwertsvergleiche über Gruppen sind möglich. Erhebliche Erweiterungen der grafischen Darstellungsmöglichkeiten ermöglichen jetzt Flächendarstellungen, Konturplots, Mittelwertsvergleichskreise in Box-Plots und datenabhängige Einfärbungen mit bis zu 5 Farben. Flächenanpassungen werden unterstützt durch Lineare Interpolation, Spline- und Kernschätzungen und durch Anpassung parametrischer Modelle.

2 4. KSFE 2000 in Gießen - Vorträge SAS Analyst SAS Analyst Die SAS Analyst Applikation unterstützt interaktive grafische und statistische Analysen. Sie arbeitet als Programmgenerator, so dass automatisch erzeugte und gesicherte Programme für weitere automatisierte Auswertungen zur Verfügung stehen. Grafische Analysen beziehen ein: Bar Charts, Pie Charts, Histogramme, Box Plots, Wahrscheinlichkeitsplots, Scatter, Contour und Surface Plots. Statistische Analysen umfassen: Deskriptive Verfahren, Kreuztabellen, Tests von Hypothesen, Regression, ANOVA, Hauptkomponentenanalyse, Überlebensanalyse und die Berechnung von Stichprobengrößen für verschiedene Testverfahren. SAS Analyst Für die Berechnung und grafische Darstellung von Boxplots steht eine neue Prozedur BOXPLOT zur Verfügung.

Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems 3 Interaktive Zeitreihenanalyse SAS/ETS ist in verschiedenen Prozeduren ergänzt worden und bietet ein stark überarbeitetes Zeitreihenvorhersage-Menüsystem. Die Modellierung ermöglicht eine einfachere Anpassung der Zeitreihen und individuelle Prognosen. In den Autokorrelationsplots werden zusätzlich Konfidenzgrenzen dargestellt. Ein integriertes Arbeiten mit den SAS/ETS-Prozeduren und dem Menüsystem wird unterstützt. Prognose mit Konfidenzgrenzen

4 4. KSFE 2000 in Gießen - Vorträge PROC TPSPLINE Kleinste-Quadrate-Schätzungen mit Straffunktionen multidimensionale Daten multiple SCORE Statements semiparametrische und nichtparametrische Modelle Optionen für große Datenmengen Die Prozedur TPSPLINE paßt nichtparametrische Regressionsmodelle nach der Methode der Kleinsten Quadrate mit Straffunktion an. Es sind keine Annahmen über die Form des Modells erforderlich. Der Grad der Glättung kann gewählt werden. Die generalized cross validation (GCV) Funktion wird zur Steuerung des Glättungsgrades verwendet. PROC TPSPLINE: Syntax PROC TPSPLINE < option > ; MODEL dependents = < variables > (variables) < /options > ; SCORE data=sas-data-set out=sas-data-set ; OUTPUT < out=sas-data-set > keyword <... keyword > ; FREQ variable ; ID variables ;

Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems 5 PROC TPSPLINE: Beispiel proc TPSPLINE data=measure; model y=(x1 x2) /lognlambda=(-4 to -2 by 0.1); score data=pred out=predy; output out=estimate pred uclm lclm; run; PROC TPSPLINE: Output Estimates from Proc TPSPLINE x2 y P_y Obs x1 LCLM_y UCLM_y 1-1.0-1.0 15.5448 15.6474 15.5115 15.7832 2-1.0-1.0 15.7631 15.6474 15.5115 15.7832 3-0.5-1.0 18.6740 18.5783 18.4430 18.7136 4-0.5-1.0 18.4972 18.5783 18.4430 18.7136 5 0.0-1.0 19.6609 19.7270 19.5917 19.8622 6 0.0-1.0 19.8023 19.7270 19.5917 19.8622 7 0.5-1.0 18.5984 18.5552 18.4199 18.6905 8 0.5-1.0 18.5190 18.5552 18.4199 18.6905 9 1.0-1.0 15.8684 15.9436 15.8077 16.0794 10 1.0-1.0 16.0391 15.9436 15.8077 16.0794 11-1.0-0.5 10.9238 11.0467 10.9114 11.1820 PROC KDE univariate und bivariate Kerndichteschätzungen Approximation einer unbekannten Dichte aus bekannten Dichten (Kernen) datenabhängige Glättung

6 4. KSFE 2000 in Gießen - Vorträge Die Prozedur KDE berechnet univariate und bivariate Kerndichteschätzungen mit Gaußschen Kernen. PROC KDE Gaussche Dichte als Kern Angenommene Varianz bestimmt die Glättung. Ausgabe der Dichteschätzung in eine SAS-Datei Berechnung von Statistiken, z.b. Perzentile der geschätzten Dichte PROC KDE < options > ; FREQ variable ; VAR variables ; WEIGHT variable ; PROC KDE: Output Bivariate Kernel Density Estimate The KDE Procedure Percentiles Percent x y 10.0-4.18-4.11 25.0-2.24-2.30 50.0-0.11-0.058 75.0 2.22 2.21 90.0 3.81 3.94 95.0 4.88 5.22 97.5 6.03 5.94 99.0 6.90 6.77 99.5 7.71 7.07

Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems 7 PROC VARIOGRAM berechnet Maße der räumlichen Stetigkeit zweidimensionaler Raumdaten Isotropische und anisotropische Maße können ausgewählt werden. Ergebnisse dienen der Prozedur KRIGE2D zur räumlichen Vorhersage. PROC VARIOGRAM options ; COMPUTE computation-options ; COORDINATES coordinate-variables ; DIRECTIONS directions-list ; VAR analysis-variables-list ; PROC KRIGE2D gewöhnliches Kriging in 2 Dimensionen anisotropische und isotropische Semivariogramme Semivariogrammodelle: Gauß, Exponentiell, Sphärisch und Power Nugget-Effekte PROC KRIGE2D options ; COORDINATES COORD coordinate-variables ; GRID grid-options ; PREDICT PRED P predict-options ; MODEL model-options ;

8 4. KSFE 2000 in Gießen - Vorträge PROC LOESS Nichtparametrische Methode zur Schätzung von Regressionsflächen keine Annahmen über die Form der Regressionsfläche erforderlich Alternative zu Prozeduren GLM, REG und NLIN robuste Methode bei Ausreissern Die Prozedur LOESS stellt eine nichtparametrische Methode für die Berechnung von Regressionsflächen zur Verfügung. Dieses Verfahren ist bei Vorhandensein von Ausreissern in den Daten oder bei anderen Fragestellungen des robusten Schätzens sinnvoll. PROC LOESS multidimensionale Daten multiple abhängige Variable iteratives Gewichten bei Vorhandensein von Ausreissern multiple SCORE Statements PROC LOESS <DATA=SAS-data-set> ; MODEL dependents=regressors < / options > ; ID variables ; WEIGHT variable ; SCORE DATA=SAS-data-set < ID=(variable list) > < / options > ;

Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems 9 PROC NLMIXED Nichtlineare Modelle mit festen und zufälligen Effekten bedingte Verteilung (Normal, Binomial, Poisson) wählbar, andere selbst kodierbar Maximierung eines approximierten Likelihoods (adaptives Gauss, Taylor- Reihen-Approximation 1. Ordnung) Die Prozedur NLMIXED paßt nichtlineare gemischte Modelle an, d.h. Modelle, in denen feste und zufällige Effekte nichtlinear eingehen. Der Nutzer kann bedingte Verteilungen selbst angeben, aus vorbereiteten Verteilungen (Normal, Binomial, Poisson) oder über Programmcode. Die Schätzungen basieren auf dem Maximum-Likelihood-Prinzip. PROC NLMIXED Vorhersagen für beliebige Funktionen möglich (mit Empirisch-Bayesschen Schätzungen der zufälligen Effekte) beliebige Funktionen der nichtzufälligen Parameter schätzbar (Standardfehler nach Delta-Methode) PROC NLMIXED options ; ARRAY array specification ; BOUNDS boundary constraints ; CONTRAST 'label' expression <,expression> ; ESTIMATE 'label' expression ; ID expressions ; MODEL model specification ; PARMS parameters and starting values ; PREDICT expression ; RANDOM random effects specification ; REPLICATE variable ; Program statements ;

10 4. KSFE 2000 in Gießen - Vorträge PROC PLS Partial least squares (PLS) ursprünglich entwickelt vom Ökonometriker Herman Wold (1964) Modellierung von Pfaden kausaler Beziehungen zwischen Blöcken von Variablen Die Prozedur PLS bietet für die Anpassung von linearen Vorhersagemodellen verschiedene Methoden an, einschließlich Partial Least Squares (PLS). Neben der optimalen Anpassung der Responsevariablen aus erklärenden Variablen werden auch Abhängigkeiten der erklärenden Variablen untereinander genutzt, um die Vorhersagegüte zu verbessern. Linearkombinationen (Faktoren) einiger erklärender Variablen modellieren auch andere erklärende Variable. PROC PLS Prozedur PLS berechnet nur predictive partial least squares Modelle mit einem Block" von Regressoren und einem Block" von Wirkungen. Allgemeinere Pfadmodelle : Prozedur CALIS PROC PLS < options > ; CLASS variables ; MODEL dependent-variables = effects < / options > ; OUTPUT OUT= SAS-data-set < options > ;

Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems 11 PROC PLS: Output The PLS Procedure Model Effect Weights Number of Inner Extracted Regression Factors P3 P4 Coefficients 1 0.294469-0.209809 0.594626 2 0.374385 0.429566 0.202252 PROC SURVEYSELECT Anspruchsvolle Stichproben-verfahren Schichtungen Clusterverfahren ungleiche Selektionswahrscheinlichkeiten PROC SURVEYSELECT options ; STRATA variables ; CONTROL variables ; SIZE variable ; ID variables ;

12 4. KSFE 2000 in Gießen - Vorträge PROC SURVEYMEANS Schätzung von Populationsmittelwerten aus Umfragedaten Varianzschätzungen Konfidenzgrenzen weitere deskriptive Statistiken Komplexität des Stichprobenplanes wird berücksichtigt. PROC SURVEYMEANS < options > < statistic-keywords > ; CLASS variables ; CLUSTER variables ; STRATA variables < / option > ; VAR variables ; WEIGHT variable ; PROC SURVEYREG Regressionsanalysen für komplexe Stichprobenpläne auf Umfragedaten Regressionskoeffizienten Varianz-/Kovarianzmatrizen PROC SURVEYREG < options > ; CLASS variables ; CLUSTER variables ; CONTRAST 'label' effect values <... effect values > < / options > ; ESTIMATE 'label' effect values <... effect values > < / options > ; MODEL dependent = < effects > < / options > ; STRATA variables < / options > ; WEIGHT variable ;

Neue Dimensionen der statistischen Datenanalyse mit Version 8 des SAS Systems 13 SAS System Hilfe Die SAS System Hilfe unterstützt den Analytiker über Stichwort- und Themensuchfunktionen und hält für alle statistischen Verfahren reproduzierbare Beispielprogramme bereit. Für die individuelle Gestaltung von Ergebnisreports werden die durch Prozeduren berechneten Größen als SAS-Variable zugänglich gemacht (ODS) und in der SAS System Hilfe beschrieben.