MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql _server_2012 - data minine Comelio Medien 2013
Inhaltsverzeichnis 1. Von Bl zu Data Mining 31 1.1. Datenverarbeitung für Wissensgenerierung 31 1.1.1. Anwender- und Kundenstruktur 32 1.1. 2. Informationsquellen 36 1.1. 3. Aufgaben der Datenverarbeitung 38 1. 2. Der Business Intelligence-Prozess 42 1. 2.1. Definition 42 1.2.2. Bl und Beobachtung 43 1. 2. 3. Traditionelle statistische Auswertungen 45 1.2.4. Data Mining 47 1. 3. Berichte, Business Intelligence und Data Mining 49 1.3.1. Berichte 49 1. 3. 2. Data Warehousing und Würfel/Cubes 51 1. 3. 3. Erweiterte Analysen mit Data Mining 52 2. Data Mining und DM-Verfahren 57 2.1. Statistische Grundlagen 57 2.1.1. Skalen 57 2.1.2. Lagemaße und Streuungsmaße. 61 2.1.3. Korrelation und Zusammenhang zwischen metrischen Variablen 68 2.1. 4. Kontingenz und Zusammenhang zwischen nominalen Variablen 73 2. 2. Vorgehen im Data Mining 76 2. 2.1. Data Mining-Kreislauf 76 2. 2. 2. Daten-Vorbereitung und Daten-Vorverarbeitung 80 2.2.3. Modell-Aufbau 87 2. 2. 4. Modell-Bewertung und Modell-Auswahl 92 2. 3. Regressionsverfahren 100 2.3.1. Lineare Regression 100 2.3.2. Logistische Regression 105 2.3.3. Zeitreihenanalyse 111 5
2.4. Klassifikation 2.4. 1. Naive Bayes. 117 117 2.4.2. Entscheidungsbäume 123 2.4.3. Clustering 129 2. 4. 4. Künstliche neuronale Netze 135 2. 5. Sequenzen 140 2. 5.1. Assoziationsanalyse 140 2.5.2. Sequenz-Clustering 142 3. Die Architektur der Microsoft-Produkte für Bl und Data Mining 147 3.1. Anwendungen und Technologien im Überblick 147 3.1.1. SQL Server 2012 147 3.1. 2. Skript- und Abfragesprachen 152 3.1.3. Office 2010/2013 154 3.1.4. Visual Studio 2010/2012 156 3.1. 5. Objektbibliotheken und Steuerelemente 156 3. 2. Unterschiede in Versionen und Editionen von SQL Server 157 3. 2.1. Übersicht der Unterschiede 157 3.2.2. Versionen von SQLServer 158 3.2.3. Editionen von SQL Server 163 3. 3. Einrichten der Arbeitsumgebung 164 3. 3.1. Bestehende Arbeitsumgebung 164 3. 3. 2. Erforderliche Office-Komponenten 164 3.3.3. Visual Studio 2012 165 3. 3. 4. SQLServer 2012 Developer Edition 165 3. 3. 5. Die Beispieldatenbank Adventure Works 170 3. 3. 6. SQL Server Data Mining-Add-Ins für Office 2010/2013 175 4. Data Mining mit MS SQL Server 181 4.1. Data Mining-Kreislauf 181 4.1.1. Werkzeuge im Data Mining-Kreislauf 181 4. 1. 2. Modell-Erstellung 183 4.1. 3. Modell-Darstellung und seine Bewertung 186 4. 1. 4. Abfrage und Nutzung 188 4. 2. Lineare Regression 190 4. 2. 1. Projekt und Datenquelle definieren 190 4. 2. 2. Mining-Struktur und Mining-Modell 196 4.2.3. Mining-Modelle für Mining-Struktur 201 6
4. 2.4. Projekt verarbeiten und bereitstellen 203 4. 2. 5. Modell-Visualisierung und Gleichung 206 4. 2. 6. Güte, Modellqualität und -vergleich 209 4. 2. 7. Abfrage und Vorhersage 210 4.2.8. Parameter 213 4.3. Logistische Regression 214 4. 3.1. Struktur und Modell 214 4. 3. 2. Modell-Visualisierung und Ergebnisse 216 4. 3. 3. Lift-Diagramm 219 4. 3. 4. Weitere Gütemessungen 226 4. 3. 5. Abfrage und Vorhersage 232 4. 3. 6. Parameter 233 4.4. Entscheidungsbäume 234 4.4.1. Struktur und Modell 234 4. 4. 2. Modell-Visualisierung und Ergebnisse 236 4.4.3. Güte und Genauigkeit 241 4. 4. 4. Abfrage und Vorhersage 243 4.4. S. Parameter 243 4. 5. Assoziationsanalyse 245 4.5.1. Struktur und Modell 245 4. 5. 2. Modell-Visualisierung und Ergebnisse 249 4.5.3. Abfrage und Vorhersage 253 4. 5. 4. Parameter 255 4. 6. Naive Bayes 256 4.6.1. Struktur und Modell 256 4. 6. 2. Modell-Visualisierung und Ergebnisse 257 4. 6. 3. Güte und Genauigkeit 261 4.6.4. Abfrage und Vorhersage 262 4. 6. 5. Parameter 263 4.7. Clustering 264 4.7.1. Struktur und Modell 264 4.7.2. Modell-Visualisierung und Ergebnisse 266 4.7.3. Güte und Genauigkeit 271 4. 7. 4. Abfrage und Vorhersage 272 4. 7. 5. Parameter 273 4. 8. Künstliche neuronale Netze 275 4. 8.1. Struktur und Modell 275 4. 8. 2. Modell-Visualisierung und Ergebnisse 277 7
4. 8. 3. Güte und Genauigkeit 279 4. 8. 4. Abfrage und Vorhersage 282 4. 8. 5. Parameter 284 4.9. Sequenz-Clustering 285 4. 9.1. Struktur und Modell 285 4. 9. 2. Modell-Visualisierung und Ergebnisse 288 4. 9. 3. Abfrage und Vorhersage 294 4. 9. 4. Parameter 295 4.10. Zeitreihen 295 4.10.1. Struktur und Modell 296 4.10. 2. Modell-Visualisierung und Ergebnisse 299 4.10. 3. Abfrage und Vorhersage 304 4.10. 4. Parameter 305 5. MS Office Data Mining Add-Ins 311 5.1. Installation und Einrichtung 311 5.1.1. Installation der Add Ins 311 5.1. 2. Verbindung aus Excel 317 5.1. 3. MS SQL Server-Konfiguration 318 5.2. Tabellenanalysetools für MS Excel 320 5. 2.1. Wichtige Einflussfaktoren 320 5. 2. 2. Kategorien entdecken 324 5.2.3. Daten aus Beispiel füllen 327 5.2.4. Prognose in der Zeit 329 5. 2. 5. Ausnahmen markieren 332 5. 2. 6. Szenario-Analyse 334 5. 2. 7. Vorhersage-Rechner 340 5. 2. 8. Warenkorb-Analyse 344 5. 3. Daten vorbereiten 347 5. 3.1. Verteilungen untersuchen 347 5.3.2. Ausreißer bearbeiten 349 5. 3. 3. Daten ändern 351 5.3.4. Daten zufällig auswählen 353 5. 4. Data Mining-Verfahren aus MS Excel nutzen 356 5.4. 1. Entscheidungsbäume für Klassifizierung 357 5.4.2. Entscheidungsbäume für numerische Vorhersage 362 5.4.3. Clustering 364 5.4.4. Assoziationsanalyse 367 8
5. 4. 5. Zeitreihenanalyse 369 5.4. 6. Allgemeine Data Mining-Strukturen 372 5. 5. Data Mining Strukturen verwalten 379 5. 5.1. Aufrufen und Ergebnisse abrufen 379 5.5. 2. Dokumentation 380 5. 5. 3. Verwaltung von Strukturen und Modellen 381 5. 5. 4. Abfragen, Klassifikation und Prognose 383 5.6. Güte und Qualitätsmessung 387 5. 6.1. Genauigkeitsdiagramm 387 5.6.2. Klassifikationsmatrix 390 5.6.3. Gewinn-Diagramm 391 5.6.4. Kreuzvalidierung 392 5. 7. Data Mining Add Ins für MS Visio 393 5. 7.1. Entscheidungsbäume 394 5. 7. 2. Abhängigkeitsnetzwerk 397 5.7.3. Clustering 401 6. Integration und Reporting Services 409 6.1. Integration Services 409 6.1.1. Data Mining Modell-Training 410 6.1. 2. Data Mining-Abfrage 416 6.1.3. Administration 424 6.2. Reporting Services 430 6. 2.1. Bericht für ein Data Mining-Modell 430 6.2.2. Optionen für Berichte 434 7. Abfragen mit ASSL, XMLA und DMX 439 7.1. Einführung in ASSL und XMLA 439 7.1.1. Anwendungsgebiet von XMLA 440 7.1.2. Methoden und Erweiterungen von XMLA 440 7.1. 3. XMLA-Abfragen im Management Studio erstellen 443 7.1.4. XMLA mit SQLServer Profiler weiterverwenden 446 7.1.5. DMX mit XMLA versenden 449 7. 2. Data Mining-Erweiterungen (DMX) 451 7. 2.1. Sprachelemente von DMX 451 7.2.2. DMX-Abfragen in Management Studio erstellen 458 7.2.3. Miningstrukturen und-modelle erstellen 462 7.2.4. Vorhersageabfragenerstellen 466 7. 2. 5. Weitere Abfragen für Miningmodelle 470 9
8. Programmierung mit AMO und ADOMD.NET..477 8.1. Analysis Management Objects (AMO) 477 8.1.1. Grundlegende Klassen in AMO 478 8.1. 2. Klassen für Data Mining in AMO.479 8.1. 3. Weitere Klassen in AMO 479 8.1. 4. Erstellen der Beispielanwendung 480 8.1. 5. Datenbankverbindung herstellen 483 8.1. 6. Mit Miningstrukturen und -modellen arbeiten 484 8.1. 7. Datenbanken sichern und wiederherstellen 494 8.1. 8. AMO verteilen 495 8. 2. ActiveX Data Objects MultiDimensional.NET (ADOMD.NET) 496 8. 2.1. Klassen für den Datenzugriff in ADOMD.NET 496 8. 2. 2. Klassen für Data Mining in ADOMD.NET 497 8. 2. 3. Erstellen der Beispielanwendung 497 8. 2. 4. Datenbankverbindung herstellen 500 8. 2. 5. Datenabfragen ausführen 501 8.2.6. ADOMD.NET verteilen 508 8. 3. Data Mining Viewer Controls 508 8. 3.1. Erstellen der Beispielanwendung 509 8. 3. 2. Data Mining Viewer Controls verteilen 514 10