Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15
AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte)
ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE 1. Aufgabe a) Wodurch ist ein Entscheidungsproblem gekennzeichnet? Auswahl aus mind. zwei Alternativen (Handlungsalternativen, Entscheidungsmöglichkeiten, Aktionen, Strategien) durch wenigstens einen Entscheidungsträger (z.b. Individuum, Unternehmen, Staat) unter Sicherheit oder Unsicherheit (Ungewissheit, Risiko, Unschärfe). b) Wie sieht ein typischer Prozess des Entscheidens aus? Entscheidung = Willensbildung + Entschluss; Entscheidungsprozess = Ablauf einer Entscheidung (mehrstufige Entscheidung) Phasen: Problemformulierung (nach Wahrnehmung von Symptomen, die eine Entscheidung erfordern) Präzisierung des Zielsystems für die Alternativensuche und -bewertung Alternativensuche und Ergebnisprognose (für die einzelnen Alternativen) Alternativenauswahl = eigentliche Entscheidung Ggf. weitere Entscheidungen während der Realisierungsphase (konkreten Umsetzung)
ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE 1. Aufgabe c) Was ist das Ziel der Entscheidungstheorie und worin liegt der Unterschied zwischen deskriptiver und präskriptiver Entscheidungstheorie? Entscheidungstheorie befasst sich mit Entscheidungsverhalten Teilgebiete: Deskriptive Entscheidungstheorie: fragt nach tatsächlichem Entscheidungsverhalten (induktiv) Präskriptive ( normative ) Entscheidungstheorie: fragt danach, wie Entscheidungen rational getroffen werden können sucht nach den Grundlagen und Verfahren logischen Entscheidens -> Entscheidungslogik Ziel: Entwicklung von mathematischen Modellen, mit deren Hilfe aus einem gegebenen Input der zu erwartende Output bestimmt werden kann
ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE 1. Aufgabe d) Lösung zum Exkurs: Deskriptive Statistik (OPAL)
ANWENDUNGSSYSTEME UND SYSTEMKATEGORIEN VON EUS 2. Aufgabe a) Erklären Sie die Begriffe Administrationssystem und Dispositionssystem! Grenzen Sie diese Systemklasse von den Planungs- und Kontrollsystemen ab!
ANWENDUNGSSYSTEME UND SYSTEMKATEGORIEN VON EUS 2. Aufgabe a) Erklären Sie die Begriffe Administrationssystem und Dispositionssystem! Grenzen Sie diese Systemklasse von den Planungs- und Kontrollsystemen ab! Administrations- und Dispositionssysteme Operative Systeme zur Unterstützung des operativen (Tages-)Geschäftes nur bedingt Managementunterstützend: stellen lediglich die Datenbasis für die Beurteilung des gegenwärtigen und vergangenen Betriebsgeschehens dar 1. Klasse: Operative Systeme, Pyramide unterer Teil Planungs- und Kontrollsysteme (Führungssysteme): direkt auf die Belange der Fach- und Führungskräfte ausgerichtet. Informationssysteme, Entscheidungsunterstützungssysteme, Berichts- und Kontrollsysteme 2. Klasse: Planungs- und Kontrollsysteme, Pyramide oberer Teil
ANWENDUNGSSYSTEME UND SYSTEMKATEGORIEN VON EUS 2. Aufgabe b) In welche Systemklasse lassen sich die Dispositiven Informationssysteme einordnen? c) Grenzen Sie die Begriffe Executive Information System, Decision Support System und Management Support System voneinander ab!
ANWENDUNGSSYSTEME UND SYSTEMKATEGORIEN VON EUS 2. Aufgabe d) Nennen Sie zwei Beispiele für Operative Systeme innerhalb eines Unternehmens.
DATA MINING 3. Aufgabe a) Überlegen und erläutern Sie an einem selbstgewählten Beispiel, wo Sie im Alltag mit Data Mining in Berührung kommen! b) Was ist KDD? Welche Ziele werden damit verfolgt? Knowledge Discovery in Databases describes the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. Nicht-trivialer Prozess (non-trivial process) dessen Ziel es ist, Muster (patterns) aus großen Datenbeständen (data) zu extrahieren, welche für einen großen Teil des Datenbestandes gültig sind (valid), bislang unbekannte (novel), potenziell nützliche (potentially useful) und leicht verständliche (ultimately understandable) Zusammenhänge innerhalb des Datenbestandes beschreiben.
DATA MINING 3. Aufgabe c) Worin liegt der Unterschied zwischen Knowledge Discovery und Data Mining? d) Welche Aufgabenbereiche des Data Mining kennen Sie und welche Problembereiche lassen sich daraus ableiten? Problemtypen des Data Mining: Beschreibungsaufgaben descriptive data mining Segmentierung (Welche Kundengruppen gibt es?) Abhängigkeiten (Welche Waren werden oft zusammen gekauft?) Prognoseaufgaben predictive data mining Klassifikation (Ist der Kunde kündigungsgefährdet?) Regression (Umsatz des Kunden in der nächsten Saison?)
DATEN-/INFORMATIONSQUALITÄT U. SKALENNIVEAUS 4. Aufgabe a) Grenzen Sie Daten, Information und Wissen voneinander ab und erläutern Sie die Übergänge!
DATEN-/INFORMATIONSQUALITÄT U. SKALENNIVEAUS 4. Aufgabe b) Nennen Sie jeweils vier wichtige Kriterien für Daten- und Informationsqualität!
DATEN-/INFORMATIONSQUALITÄT U. SKALENNIVEAUS 4. Aufgabe c) Was ist ein Skalenniveau und welcher Zusammenhang besteht hinsichtlich der Daten- bzw. Informationsqualität? Skalenniveau = Eigenschaft von Merkmalen bzw. von Variablen statistischen Informationsgehalt von Bedeutung für die Interpretation der Daten und die Eignung statistischer Verfahren gibt an Welche Vergleichsaussagen und welche rechnerischen Operationen für die Skalenwerte sinnvoll und somit zulässig sind Welche Transformationen von Skalenwerten die Messung erhalten (sogenannte zulässige Transformationen)
DATEN-/INFORMATIONSQUALITÄT U. SKALENNIVEAUS 4. Aufgabe d) Ergebnisse der OPAL-Aufgabe? Diskrete Werte Stetige Werte abzählbar viele Merkmalsausprägungen beliebige Werte in einem Bereich (Intervall) Metrische Daten gemessene reelle Zahl mit interpretierbaren Abständen, quantitativ (z.b. Gewicht, Größe) =/ </> +/- ( / ) -> diskret oder stetig Ordinale Daten Nominale Daten lassen sich ordnen, Ordnung aber nicht durch reellen Wert ausdrückbar (z.b. Schulnoten sehr gut ) =/ </> -> meist diskret zählbar aber keine Ordnung gegeben, qualitativ (z.b. Geschlecht) =/ -> stets diskret Weitere Beispiele: Alter (0-100 Jahre), Temperatur (0-100 C) Würfeln (2, 3, 4, ) Platzierung Sport (1., 2., 3. Platz) stetig, metrische Skala diskret, metrische Skala diskret, ordinale Skala
AGENDA TEIL 2 Fallstudie Teil 1 (ohne EB)
DM-Software RapidMiner Fallstudie Teil I
DM-Software RapidMiner Fallstudie Teil I
DM-Software RapidMiner erste Schritte (4.)
DM-Software RapidMiner Fallstudie Teil II
DM-Software RapidMiner erste Schritte Hauptprozess: Data Mining Bsp. Entscheidungsbaum