Data Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger

Größe: px
Ab Seite anzeigen:

Download "Data Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger"

Transkript

1 Data Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger

2 Data Mining Seite 2 Inhalt 1. Einführung Wozu ist Data Mining gut? Der Data Mining Prozess Kosten-Nutzen-Rechnung am Beispiel einer Direktmailingaktion Übersicht über die Methoden des Data Mining Statistische Methoden Fallbasiertes Schließen Entscheidungsbäume Neuronale Netze Genetische Algorithmen Entscheidungsbäume Induktives Lernen Lernen von Entscheidungsbäumen Entscheidungsbäume als Performanzelemente Induktion von Entscheidungsbäumen aus Beispielen Abschätzung der Performanz des Lernalgorithmus Praktischer Gebrauch des Entscheidungsbaum-Lernens Die Verwendung der Informationstheorie Das Prinzip des Informationsgewinns Rauschen und Overfitting Erweiterung der Anwendbarkeit von Entscheidungsbäumen Lineare und Nichtlineare Entscheidungsbäume Geometrische Interpretation Lineare Entscheidungsbäume Nichtlineare Entscheidungsbäume Neuronale Netze Gehirn und Computer Struktur und Arbeitsweise des Gehirns Vergleich zwischen Gehirn und Computer Neuronale Netze Grundbegriffe Notationen Einfache Rechenelemente Netzstrukturen Optimale Netzstrukturen Perzeptrone Struktur von Perzeptronen Repräsentationsfähigkeit von Perzeptronen Erlernen linear separierbarer Funktionen Mehrschichtige zyklenfreie Netze Back-Propagation-Lernen Eigenschaften des Back-Propagation-Lernens Anwendungen Neuronaler Netze Englische Aussprache Erkennen von Handschrift Autofahren Der prudsys DISCOVERER Einige wichtige Begriffe Lern-, Evaluierungs- und Klassifikationsdatenbank Merkmalstypen Fehlende Werte Transformation und Normierung Gains-Chart, Lift-Chart, Segment-Fortschrittsanzeige Gains-Chart Lift-Chart Die Segment-Fortschrittsanzeige Die Baumdarstellung... 71

3 Data Mining Seite Kostenanalyse Literatur Berry, M.J.A., Linoff, G. (1997), Data Mining Techniques. For Marketing, Sales, and Customer Support. John Wiley & Sons, Inc., New York. Hand, D., Mannila, H., Smyth, P. (2001), Principles of Data Mining. MIT Press, Cambridge, Mass. Prudential Systems Software GmbH (2001), prudsys DISCOVERER 3.0. User Guide, Chemnitz. Russel, S., Norvig, P. (1995), Artificial Intelligence. A Modern Approach. Prentice Hall, Upper Saddle River, NJ. Witten, I.A., Frank, E. (2000) Data Mining. Practical Machine Learning Tools and Techniques with va Implementations. Academic Press, San Diego, CA.

4 Data Mining Seite 4 1. Einführung 1.1. Wozu ist Data Mining gut? Die wichtigsten kommerziellen Einsatzgebiete des Data Mining sind die folgenden: Direktmarketing Direktmailing Außendienst Kundenprofile Erstellung von Kundenprofilen Top-Kunden-Analyse Neukundengewinnung Kündigerprävention Handel Warenkorbanalyse ecommerce Finanz- und Versicherungswirtschaft Risikoanalyse (Credit Scoring) Missbrauchsentdeckung (Fraud Detection) Beim Einsatz von Data Mining zur Optimierung der Direktmailingaktion werden zunächst zwei vorbereitende Schritte gemacht. Schritt 1: Profilerstellung Es wird ein Produktprofil erstellt. Dazu werden Erfahrungen aus früheren Direktmailingaktionen zu gleichen oder ähnlichen Produkten benötigt, eine so genannte Responsedatenbank. Ist diese nicht vorhanden (z.b. bei einem ganz neuen Produkt), dann kann eine Testaktion mit einer kleinen Auflage (z.b ) repräsentativer Kunden durchgeführt werden. Bei neuen Produkten oder bei Direktmarketingaktionen in neuen Märkten wird eine solche Testaktion generell durchgeführt. Zum einen erhält man damit Informationen darüber, wie ein Produkt beim Kunden ankommt, zum anderen können die Ergebnisse des Tests als Responsedatenbank verwendet werden. Schritt 2: Qualifizierung einer Kundendatenbank Die gesamte Kundendatenbank wird auf Grund der Responsedatenbank in verschiedene Kundensegmente unterteilt. Jedes Segment hat ein bestimmtes Responsepotenzial. Damit erhält jeder Kunde ebenfalls ein bestimmtes Responsepotenzial und man erhält eine Schätzung über sein Responseverhalten. Die Kundensegmente werden anschließend nach ihrem Responsepotenzial in absteigender Reihenfolge angeordnet. Es liegt in der Entscheidung des Leiters der Direktmarketingaktion, bis zu welchem Segment er die Kunden in die Aktion einbeziehen soll. Das Responsepotenzial ermöglicht eine genaue Berechnung dafür, bis zu welchem Segment die Marketingaktion kostendeckend ist, wobei man im Interesse einer Gewinnmaximierung üblicherweise nicht bis zu dieser Grenze geht.

5 Data Mining Seite 5 Die qualifizierte (segmentierte) Kundendatenbank dient nun als Eingabe für das Data Mining Verfahren. Jeder qualifizierte Datensatz beschreibt einen Kunden, der angeschrieben werden soll. Der Datensatz sollte aussagekräftige Merkmale enthalten. Typische Merkmale sind: personen- und haushaltsbezogene Informationen (z.b. Struktur des Haushalts, Lifestyle, Alter) Wohngebietscharakteristiken (z.b. Postleitzahlen, Wohngegend, soziales Umfeld) Interessen (z.b. Auto, Reisen, Tiere, Kultur, Sport) Informationen über Beschäftigungen (z.b. Beruf, Einkommen) Konsumvorlieben Immobilien Kreditkartentypen Eine besonders wichtige Angabe ist natürlich, ob der betreffende Kunde auf die vorausgegangene Direktmailingaktion reagiert hat oder nicht. Die Kundensegmente in der qualifizierten Kundendatenbank können durch Beziehungen zwischen den Werten, oder genauer: bestimmter Wertebereiche, mehrerer relevanter Merkmalen beschrieben werden. Ein Beispiel für ein Segment ist: Alle Haushalte, die aus mehr als 5 Personen bestehen deren hreseinkommen zwischen und liegt, die zwei Autos fahren und die ein Eigenheim besitzen. Diese Beziehung kann man auch formal definieren, dann sieht sie z.b. so aus: CountPerson > 5 and Income and Income and CountCar = 2 and houseowner = true Die Unterteilung der Kundendatenbank in die Segmente erfolgt nicht einfach zufällig, vielmehr werden die Segmente so bestimmt, dass Responsepotenzial der in einem Segment liegenden Kunden entweder deutlich höher oder deutlich niedriger ist als das durchschnittliche Responsepotenzial aller Kunden Der Data Mining Prozess Data Mining ist keine einzelne Methode, sondern ein Prozess, der in sechs Phasen verläuft und in dem verschiedene Methoden zum Einsatz kommen können. Die Grundlage des Prozesses sind die Daten in einer Datenbank. Die einzelnen Phasen sind 1. Verstehen des Geschäftsproblems Definition der Aufgabe, vgl. dazu Abschnitt 1.1, Festlegung der Erfolgskriterien. 2. Verstehen der Daten Überblick über alle zentral oder dezentral vorhandenen Daten, die das Geschäftsproblem betreffen, Klärung des Zugriffs auf die Daten.

6 Data Mining Seite 6 3. Aufbereitung der Daten Sichtung und Behandlung fehlerbehafteten oder fehlenden Datenmaterials. Mögliche Schritte hierfür sind Löschen von Datensätzen mit fehlenden Werten, Ersetzung nicht vorhandener Merkmalswerte, Identifizierung von Ausreißern mit Hilfe explorativer Untersuchungen, Bestimmung einer für das Geschäftsproblem relevanten Teilmenge der Daten. 4. Modellbildung Identifizierung eines Kunden- oder Produktsegments, das signifikant andere Eigenschaften als die Gesamtheit aller Kunden bzw. Produkte hat, z.b. durch Segmentierung der Daten mittels Data Mining. 5. Bewertung der Ergebnisse Soll-Ist-Vergleich mit kritischer Bewertung der Resultate des Data Mining, eventuell Hinzunahme weiterer Daten. 6. Individuelle Lösung Umsetzung der Data Mining Ergebnisse, d.h. Integration in die täglichen Geschäftsabläufe, eventuell Entwicklung einer individuellen Lösung in Form von Spezialsoftware. Der Ablauf des Data Mining Prozesses ist in Abbildung 1.1 graphisch dargestellt. Verstehen des Geschäftsproblems Verstehen der Daten Individuelle Lösung Datenbank Aufbereitung der Daten Bewertung der Ergebnisse Modellbildung Abbildung Kosten-Nutzen-Rechnung am Beispiel einer Direktmailingaktion Wichtige Begriffe beim Direktmailing: Ausstattungsdichte Relation zwischen der Gesamtauflage eines Werbemittels, z.b. Katalog oder Mailing, und der Gesamtzahl aller potentiell zur Verfügung stehenden Haushalte einer Kundendatenbank. Die Ausstattungsdichte beeinflusst die Kosten: Je höher die Ausstattungsdichte, desto höher die Kosten. Responserate

7 Data Mining Seite 7 Anteil an Haushalten, die auf eine Mailingaktion positiv reagieren, z.b. Bestellung, Abonnement oder Ähnliches. Die Responserate beeinflusst auf den zu erwartenden Nettoumsatz und damit auf den Gewinn. Kosten-Umsatz-Relation (KUR) Maß für den prozentualen Werbemittelanteil am Nettoumsatz, wird nach folgender Formel berechnet: 100% Werbekosten KUR = Nettoumsatz Bei festem Nettoumsatz ist die KUR ein Maß für den notwendigen Werbemitteleinsatz zur Erzielung dieses Umsatzes. Ist z.b. KUR = 10%, dann können mit 10 Werbemittel 100 Nettoumsatz erzielt werden. Deckungsbeitrag (DB) Es werden zwei Formen des Deckungsbeitrags definiert, eine ohne und eine mit Berücksichtigung der Werbekosten: DB I = Nettoerlös variable Kosten DB II = Nettoerlös variable Kosten Werbekosten Der Zusammenhang zwischen Nettoumsatz, Deckungsbeiträgen und Ausstattungsdichte lässt sich wie in Abbildung 1.2 graphisch darstellen. Bestellwert Nettoumsatz DB I Werbekosten DB II 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Ausstattungsdichte Abbildung 1.2

8 Data Mining Seite 8 Fragen 1. Welche vorbereitenden Schritte sind für die Optimierung des Data Mining-Einsatzes bei einer Direktmailing-Aktion erforderlich? 2. Wie werden Segmente in einer qualifizierten Kundendatenbank beschrieben und wie unterteilt man die Datenbank in Segmente? 3. Wie lassen sich die Ergebnisse einer in Segmente unterteilten Kundendatenbank in einem Gains-Chart veranschaulichen? 4. Aus welchen Schritten besteht der Data Mining-Prozess? 5. Welcher Schritt des Data Mining-Prozesses ist vermutlich der zeitaufwändigste? 6. Welches sind die wichtigsten Begriffe beim Direktmailing und wie kann man ihr Verhältnis zueinander grafisch darstellen?

9 Data Mining Seite 9 2. Übersicht über die Methoden des Data Mining 2.1. Statistische Methoden Wichtige Aufgaben beim Data Mining sind die Korrelationsanalyse, die Hauptkomponentenanalyse, die Regressionsanalyse und das Clustering. Zur Lösung dieser Aufgaben können herkömmliche statistische Methoden, aber auch andere Verfahren, z.b. spezielle Neuronale Netze, eingesetzt werden. Bei der Korrelationsanalyse geht es darum, Beziehungen zwischen verschiedenen Daten dadurch zu finden, dass man die Werte bestimmter Attribute in den Datensätzen vergleicht. Lässt sich bei einem signifikant großen Teil der Werte eine feste Relation, etwa Gleichheit oder ein funktionaler Zusammenhang wie x = f(y), feststellen, dann gelten die Daten als korreliert. Bei der Hauptkomponentenanalyse geht es darum, diejenigen Attribute von Datensätzen zu bestimmen, die die Datensätze charakterisieren, d.h. die die wichtigsten zur Beschreibung der Datensätze sind. In der Regel ist dies nur ein kleiner Teil der Attribute, und es ist dann möglich, sich bei weiteren Untersuchungen der Datensätze auf diese Attribute zu beschränken. Die Regressionsanalyse untersucht Zeitreihendaten. Sie betrachtet die in der Vergangenheit etwa bei Reihenmessungen angefallenen Daten und versucht, aus dem zeitlichen Verlauf eines einzelnen oder mehrerer Werte den nächst folgenden Wert bzw. die nächst folgenden Werte zu prognostizieren. Beim Clustering wird eine Menge von Daten in Teilmengen ähnlicher Daten unterteilt. Es wird angenommen, dass die Daten durch Datensätze gleicher Struktur beschrieben sind. Dann sind sich Daten ähnlich, wenn sie in bestimmten ausgesuchten Attributen weitgehend übereinstimmende Werte haben. Clustering wird also immer relativ zu bestimmten Attributen gemacht Fallbasiertes Schließen Die Idee des fallbasierten Schließens ist, Beispiele gelöster Probleme aus einem bestimmten Anwendungsbereich abzuspeichern um sie später zur Lösung neuer, aber ähnlich gearterer Probleme heranziehen zu können. Dazu müssen die Beispielprobleme zusammen mit ihrer Lösung in einem geeigneten Format dargestellt werden und in einer speziellen Datenbank, der Fallbasis, abgespeichert werden. Ein Paar, bestehend aus Problembeschreibung und zugehöriger Lösung, heißt Fall. Liegt ein neues Problem vor, dann muss dieses zunächst in dem vorgegebenen Format dargestellt werden. Dann können die Problembeschreibungen der in der Fallbasis vorhandenen Fälle durchsucht werden um eine zum neuen Problem möglichst ähnliche Beschreibung zu finden. Dafür benötigt man ein Ähnlichkeitsmaß für die Problembeschreibungen. Der Fall mit der ähnlichsten Problembeschreibung wird genommen und seine Lösung als mögliche Lösung des neuen Problems ausgegeben. Eine Anpassung der gefundenen Lösung an die neuen Gegebenheiten kann u.u. erforderlich sein. Problem- und Lösungsbeschreibungen können in beliebigen Formaten definiert werden. Der einfachste und häufig vorkommende Fall ist, dass die Problembeschreibung aus einer Reihe von Parameterwerten besteht und die Lösungsbeschreibung ein einzelner Parameterwert ist. Ein Fall ist dann ein gewöhnlicher Datensatz bestehend aus den Werten einer Reihe von Attributen. Im Fall von numerischen Werten lässt sich das Ähnlichkeitsmaß als Euklidischer Abstand oder als (eventuell modifizierte) Manhattan-Distanz zwischen den Datensätzen definieren.

10 Data Mining Seite Entscheidungsbäume Es sei eine Menge von Datensätzen mit n Attributen gegeben. Jeder Datensatz charakterisiert ein bestimmtes Objekt und wird als Beispiel bezeichnet. Geometrisch betrachtet kann man ein Beispiel als Punkt im n-dimensionalen Raum auffassen. Jedes Attribut muss eine kleine Menge diskreter Werte als Wertebereich haben. Bei Attributen mit kontinuierlichen Wertebereichen muss eine Diskretisierung vorgenommen werden. Eines der Attribute wird als Zielattribut ausgewählt oder es wird ein neues Attribut als Zielattribut eingefügt. Das Zielattribut habe m verschiedene diskrete Werte. Mittels eines speziellen Algorithmus wird nun ein Entscheidungsbaum konstruiert. Die Konstruktion verläuft in folgenden Schritten: 1. Wähle ein Attribut a (außer dem Zielattribut) aus und entferne a aus der Menge der zur Verfügung stehenden Attribute. a habe die Werte w 1, w 2,..., w k. 2. Unterteile die Menge der vorhandenen Beispiele so in k Teilmengen, dass das Attribut a in der j-ten Teilmenge nur den Wert w j hat. 3. Führe die Schritte 1. und 2. für jede der k Teilmengen und die reduzierte Attributmenge durch. Dieser rekursive Algorithmus stoppt, wenn alle Attribute aufgebraucht sind oder wenn die Beispielmenge leer wird oder wenn die Beispielmenge homogen wird, d.h. wenn jedes Attribut für alle Beispiele in der Menge denselben Wert hat. In der Regel wird von dem Algorithmus eine graphische Struktur aufgebaut, und zwar ein Baum. Die Knoten des Baums werden von den Beispielmengen gebildet, insbesondere der Wurzelknoten von der Menge aller am Anfang vorliegenden Beispiele, die Kanten von den Werten des an einem Knoten ausgesuchten Attributs. Homogene Beispielmengen bilden Blätter im Baum. Die Beschriftung eines Wegs von der Wurzel zu einem Blatt beschreibt, unter welchen Bedingungen, d.h. bei welchem Wert für das jeweils ausgewählte Attribut, die am Blatt stehende Menge zustande kommt. Der Entscheidungsbaum kann als Klassifikator verwendet werden, er gibt für jedes neue Beispiel an, zu welchem Blatt, also zu welcher Teilmenge, es gehört Neuronale Netze Ein Neuronales Netz ist ein gerichteter Graph, dessen Knoten, genannt Einheiten, selbstständig rechnende Einheiten sind. Die Kanten verbinden die Knoten in verschiedenen typischen Formen, wodurch sich unterschiedliche Typen von Netzen ergeben. Man unterscheidet zwei Hauptklassen von Neuronalen Netzen, die Feed-forward-Netze und die rekurrenten Netze, danach, ob der zu Grunde liegende Graph zyklenfrei ist oder nicht. Häufig sind die Knoten in Teilmengen, genannt Schichten, unterteilt. Die Schichten sind geordnet, etwa als S 1, S 2,..., S n. Kanten werden bei geschichteten Netzen nur zwischen Knoten aufeinander folgender Schichten gesetzt, d.h. nur zwischen S i und S i+1 (i = 1,..., n-1). Abbildung 1.3 zeigt ein geschichtetes Feed-forward-Netz.

11 Data Mining Seite 11 Eingabeschicht Ausgabeschicht verborgene Schichten Abbildung 1.3 Die Einheiten bestehen meist aus zwei Teilen. Jeder Teil wird durch eine Funktion gebildet. Die beiden Teile, d.h. die beiden Funktionen, sind nacheinander angeordnet, so dass die Ausgabe der ersten Funktion Eingabe der zweiten ist. Die erste Funktion erhält ihre Eingaben über die Kanten, die von den vorgeschalteten Einheiten zu ihr führen, und die zweite Funktion überträgt ihre Ausgabe über Kanten an nachgeschaltete Einheiten. Die erste Funktion ist eine Integrationsfunktion, die aus der Menge der Eingaben einen einzelnen Wert berechnet. Meist wird dazu die Addition benutzt. Die zweite Funktion, genannt Aktivierungsfunktion, ist meist eine Schwellenwertfunktion. Bei mehrschichtigen Netzen ist es insbesondere die Sigmoidfunktion wegen der einfachen Differenzierbarkeit. Die Eingänge in eine Einheit, d.h. die eingehenden Kanten, sind gewichtet. Jeder Eingang x i hat ein eigenes Gewicht w i. Eine typische Einheit ist in Abbildung 1.4 dargestellt. x 1 w 1 x 2 w 2 x 3 w 3 + y w 4 x 4 w 5 x 5 Integrationsfunktion Aktivierungsfunktion Abbildung 1.4 Ein Neuronales Netz kann trainiert werden, man sagt auch: es kann lernen. Die einfachste Form des Lernens ist das überwachte Lernen. Man gibt dem Netz eine Reihe von Beispielen in beliebiger Reihenfolge und wiederholt ein. Für jedes Beispiel ist bekannt, was die gewünschte Ausgabe sein soll. Stimmt die Ausgabe des Netzes für ein Beispiel mit der gewünschten überein, dann braucht nichts getan zu werden. Weichen tatsächliche und gewünschte Ausgabe voneinander ab, dann müssen die Gewichte im Netz so verändert werden, dass sich der Fehler bei der Ausgabe verringert. Dieser Prozess erfolgt im Idealfall so lange, bis alle Beispiele richtig berechnet werden. Das Netz ist nun trainiert und repräsentiert eine bestimmte Funktion. Damit ist es in der Lage, neue Beispiele zu berechnen, d.h. einen mutmaßlichen Funktionswert für diese auszugeben.

12 Data Mining Seite Genetische Algorithmen Genetische Algorithmen laufen auf Populationen von Genomen ab. Ein Genom ist eine Folge von Genen. Die Gene sind die elementaren Informationseinheiten genetischer Algorithmen, im einfachsten Fall sind sie (kurze) Bitstrings. Die genetischen Algorithmen erzeugen in einer großen Schleife immer neue Generationen von Genomen durch Anwendung der Operationen Selektion, Kreuzung und Mutation. Dabei werden folgende Schritte durchgeführt: 1. Definiere die Genome und eine Fitnessfunktion und erzeuge eine initiale Population von Genomen. 2. Modifiziere die aktuelle Population durch Anwendung der Operationen Selektion, Kreuzung und Mutation. 3. Wiederhole Schritt 2 so lange, bis sich die Fitness der Population nicht mehr erhöht. Das Ziel des Algorithmus ist die Fitness der Genome zu maximieren. Die Fitnessfunktion, die beliebig definiert sein kann, bewertet jedes neu entstandene Genom. Dazu muss das Genom in seinen zugehörigen Phänotyp umgewandelt werden, auf ihm operiert die Fitnessfunktion. Durch die Operation Selektion werden bei jedem Durchlauf durch die Schleife des Algorithmus eine bestimmte Anzahl von Genomen ausgesondert, sie sorgt also dafür, dass die Größe der Population konstant bleibt. Gleichzeitig werden (in der Regel) die fittesten Genome für die nächsten Operationen ausgewählt. Bei der Operation Kreuzung werden zwei Genome an einer bestimmten Stelle aufgetrennt und die beiden Bruchstücke über Kreuz zu neuen Genomen kombiniert. Die Operation Mutation verändert ein oder mehrere zufällig ausgewählte Gene in einem Genom, wodurch ebenfalls ein neues Genom entsteht. Abbildung 1.5 illustriert die drei Operationen Assoziationsregeln Eine Assoziationsregel ist eine einfache Wahrscheinlichkeitsaussage über das gemeinsame Vorkommen bestimmter Ereignisse oder Muster in einer Datenbasis. Sie sind besonders geeignet für dünn besetzte Transaktionsdatenmengen und für diese ist ihre Erstellung besonders effizient. Für die folgende Darstellung wird der Einfachheit halber angenommen, dass alle Variablen binäre Werte haben. Eine typische Assoziationsregel hat dann die Form IF A = 1 AND B = 1 THEN C = 1 mit Wahrscheinlichkeit p A, B und C sind binäre Variable und p eine bedingte Wahrscheinlichkeit für das Ereignis C = 1, wenn A = 1 und B = 1 gegeben sind, d.h. p = p(c = 1 A = 1, B = 1). Die Wahrscheinlichkeit p wird Konfidenzwert oder Genauigkeitswert der Regel genannt, die Wahrscheinlichkeit p(a = 1, B = 1, C = 1) heißt Support-Wert der Regel. Bei der Bestimmung von Assoziationsregeln sucht man gewöhnlich nach solchen Regeln, deren Konfidenzwert größer als ein Schwellenwert p c und deren Support-Wert größer als ein Schwellenwert p s ist. Zum Beispiel kann man nach Regeln suchen, deren Support-Wert größer als 0.05 und deren Konfidenzwert größer als 0.8 ist. Praktische Anwendung finden die Assoziationsregeln meist in der Warenkorbanalyse. Bei dieser Data Mining Aufgabe versucht man zu bestimmen, mit welcher Wahrscheinlichkeit bestimmte Objekte zu einer Menge zusammengestellt werden, konkret: welche Waren typischerweise zusammen gekauft werden und deshalb im selben Warenkorb zu finden sind. Die Zusammengehörigkeit bestimmter Produkte lässt sich formal mittels einer Datenmatrix mit n Zeilen (entsprechend den Warenkörben) und p Spalten (entsprechend den kaufbaren Produkten) darstellen. Die Einträge in

13 Data Mining Seite 13 die Matrix sind binär. Eine solche Matrix ist typischerweise sehr groß (n in der Größenordnung von Millionen und p in der Größenordnung von Zehntausenden) und sehr dünn besetzt, weil ein Warenkorb meist nur wenige Produkte enthält. Die Assoziationsregeln finden einfache Muster in solchen Daten in effizienter Weise. n-te Generation Selektion (n+1)-te Generation Trennstelle Kreuzung Mutation Abbildung 1. 5 Es gibt verschiedene Algorithmen zur Bestimmung von Assoziationsregeln. Sie lassen sich typischerweise nach folgenden Aspekten beschreiben: 1. Aufgabe Beschreibung der Assoziationen zwischen Variablen 2. Struktur Probabilistische Regeln 3. Score-Funktion Schwellenwerte für Konfidenzwert und Support-Wert 4. Suchmethode Systematische Suche (Breitensuche mit Pruning)

14 Data Mining Seite Datenmanagement Mehrfaches lineares Durchmustern Die Score-Funktion ist eine einfache Boolesche Funktion. Eine Regel erhält den Wert 1, wenn ihr Support-Wert und ihr Konfidenzwert über den jeweiligen Schwellenwerten (s.o.) liegen. Das Ziel ist, alle Regeln mit dem Score-Wert 1 zu bestimmen. Ein Problem bei der Bestimmung der Assoziationsregeln ist ihre große Zahl. Sie liegt in der Größenordnung O(p2 p-1 ), wenn die Variablen binär sind, sie ist also exponentiell. Jedoch lässt sich die Suchzeit einschränken, wenn man eine Eigenschaft der Assoziationsregeln berücksichtigt. Es gilt nämlich, dass p(a = 1, B = 1) p s, wenn p(a = 1) p s oder p(b = 1) p s. Diesen Sachverhalt kann man nutzen, indem man zuerst nach individuellen Ereignissen sucht (z.b. A = 1), die eine größere Wahrscheinlichkeit als p s haben. Dazu ist nur ein lineares Durchmustern der Datenbasis erforderlich. Ein Ereignis bzw. eine Menge von Ereignissen heißt häufig, wenn seine (ihre) Wahrscheinlichkeit größer als p s ist. Alle Paare von häufigen Ereignissen werden als mögliche häufige Mengen der Größe 2 betrachtet. In dieser Weise kann man immer größere häufige Mengen erzeugen. Beim Übergang von häufigen Mengen der Größe k 1 zu Mengen der Größe k kann man alle Mengen der Größe k entfernen, die eine Teilmenge der Größe k 1 enthalten, die ihrerseits nicht häufig auf Ebene k 1 ist. Dieser Schritt ist möglich auf Grund der Produktregel der Wahrscheinlichkeitstheorie. Hat man nun eine Liste möglicher häufiger Mengen der Größe k bestimmt, dann wird für diese mittels einer linearen Durchmusterung der Datenbasis ermittelt, welche davon wirklich häufig sind. Danach werden die Mengen zu Mengen der Größe k + 1 kombiniert, es findet wieder ein Pruning- Schritt statt usw. bis keine häufigen Mengen mehr gebildet werden können. Schließlich ist noch ein letzter Durchlauf durch die Datenbasis zu machen, bei dem geprüft wird, welche Kombinationen häufiger Mengen als Regeln betrachtet auch die Schwellenwertbedingung für den Konfidenzwert erfüllen und diese werden als Assoziationsregeln ausgegeben.

15 Data Mining Seite 15 Fragen 1. Nennen Sie einige statistische Methoden im Data Mining! Für welche Zwecke lassen sich die Methoden einsetzen? 2. Was ist das Prinzip des fallbasierten Schließens und wie wird eine Lösung für einen neuen Fall bestimmt? 3. Was benötigt ein Verfahren für die Erstellung eines Entscheidungsbaums als Voraussetzungen? 4. In welchen Schritten wird ein Entscheidungsbaum aufgebaut? 5. Wie ist ein mehrschichtiges Feed-forward-Netz aufgebaut? 6. Welche Struktur hat eine Einheit in einem Feed-forward-Netz? 7. Wie kann ein Neuronales Netz lernen? 8. Welche Operationen werden in einem Genetischen Algorithmus verwendet und in welchen Schritten läuft der Algorithmus ab? 9. Was beschreibt eine Assoziationsregel und welche Form hat sie? 10. Was ist der Support-Wert und der Konfidenzwert einer Assoziationsregel? 11. Nennen Sie typische Aspekte eines Algorithmus zur Bestimmung von Assoziationsregeln! 12. Mit welcher Methode lässt sich bei der Suche nach Assoziationsregeln in einer Datenbank ihre Zahl beschränken? 13. Wie bestimmt man aus einer häufigen Menge eine Assoziationsregel?

16 Data Mining Seite Entscheidungsbäume 3.1. Induktives Lernen Die Konstruktion von Entscheidungsbäumen ist eine Form des Maschinellen Lernens, speziell des induktiven Lernens, noch spezieller des überwachten Lernens. Bei dieser Form des Lernens bekommt der Lerner eine Menge von Beispielen vorgelegt und soll daraus eine Funktion erlernen. Die Beispiele haben die Form von Paaren (x, f(x)). x ist die Eingabe und f(x) die Ausgabe der zu lernenden Funktion. Die reine induktive Inferenz (kurz Induktion) besteht aus der folgenden Aufgabe: Bestimme auf Grund einer Menge von Beispielen von f eine Funktion h, genannt Hypothese, die f approximiert. Im Allgemeinen können viele Hypothesen aus Beispielen generiert werden. Wird einer Hypothese gegenüber einer anderen der Vorzug gegeben, dann heißt dies ein Bias. Weil es fast immer eine große Zahl möglicher konsistenter Hypothesen gibt, haben alle Lernalgorithmen einen irgendwie gearteten Bias Lernen von Entscheidungsbäumen Entscheidungsbäume als Performanzelemente Ein Entscheidungsbaum nimmt als Eingabe ein Objekt oder eine Situation, beschrieben durch eine Menge von Eigenschaften und erzeugt als Ausgabe eine -/-Entscheidung. Ein innerer Knoten eines Entscheidungsbaums entspricht einem Test auf den Wert einer der Eigenschaften und die nach unten von dem Knoten wegführenden Kanten sind mit den möglichen Werten der Eigenschaft markiert. Ein Blattknoten entspricht einem Booleschen Wert, der als Ergebnis ausgegeben wird, wenn das Blatt erreicht wird. Als ein Beispiel wird das Entscheidungsproblem betrachtet, ob man in einem Restaurant auf einen freien Tisch warten soll, wenn alle Tische besetzt sind. Man möchte also eine Definition für das Zielprädikat Warten in Form eines Entscheidungsbaums lernen. Zunächst müssen die Eigenschaften oder Attribute festgelegt werden, mit denen die Beispiele beschrieben werden. Die folgenden Attribute werden gewählt: 1. Alternative: Gibt es in der Nähe ein geeignetes anderes Restaurant? 2. Bar: Gibt es in dem Restaurant eine komfortable Bar zum Warten? 3. Fr/Sa: Ist Freitag oder Samstag? 4. Hungrig: Bin ich hungrig? 5. Gäste: Wie viele Leute sind im Restaurant (keine, einige oder voll)? 6. Preis: In welchem Preissegment liegt das Restaurant (,, )? 7. Regen: Regnet es draußen? 8. Reservierung: Habe ich reserviert? 9. Typ: Um welche Art von Restaurant handelt es sich (Französisch, Italienisch, Chinesisch oder Burger)? 10. Wartezeit: Welche voraussichtliche Wartezeit wird vom Restaurant geschätzt? Ein Entscheidungsbaum für das Problem könnte z.b. der in Abbildung 3.1 dargestellte sein. Die Attribute Preis und Typ sind darin nicht benutzt, weil sie angesichts der Datenlage irrelevant sind. Der Baum kann in eine Menge von Implikationen (8 insgesamt) umgesetzt werden, die den Pfaden

17 Data Mining Seite 17 von der Wurzel zu den mit markierten Blättern entsprechen. Zum Beispiel ergibt der Pfad über die Knoten Wartezeit und Hungrig die Implikation r Gäste(r, Voll) Wartezeit(r, 10-30) Hungrig(r, ) Warten(r) Gäste? Keine Einige Voll Wartezeit? > Alternative? Hungrig? Reservierung? Fr/Sa? Alternative? Bar? Regen? Abbildung Induktion von Entscheidungsbäumen aus Beispielen Ein Beispiel wird durch die Werte der Attribute und den Wert des Zielprädikats beschrieben. Der Wert des Zielprädikats heißt Klassifikation des Beispiels. Ist der Wert wahr für ein Beispiel, so heißt dieses ein positives Beispiel, andernfalls ein negatives Beispiel. Die gesamte Menge der Beispiele heißt Trainingsmenge. Tabelle 3.1 enthält die Beispiele für das Restaurant-Beispiel. Beispiele Attribute Ziel Alternativrivierunzeit Bar Fr/Sa Hung- Gäste Preis Regen Reser- Typ Warte- Warten X 1 Einige Franz 0-10 X 2 Voll Chin X 3 Einige Burger 0-10 X 4 Voll Chin X 5 Voll Franz >60 X 6 Einige Ital 0-10 X 7 Keine Burger 0-10 X 8 Einige Chin 0-10 X 9 Voll Burger >60 X 10 Voll Ital X 11 Keine Chin 0-10 X 12 Voll Burger Tabelle 3.1 Bei der Erstellung eines Entscheidungsbaums aus Beispielen kommt es darauf an, ein Muster zu extrahieren, das eine große Zahl von Fällen in knapper Form beschreibt. Der Entscheidungsbaum muss vor allem eine knappe, aber informationsreiche Repräsentation von Fällen sein und er sollte alle Trainingsbeispiele erfassen.

18 Data Mining Seite 18 Ein Entscheidungsbaum repräsentiert eine einfache Hypothese, wenn er möglichst klein ist. Das Problem, den kleinsten Entscheidungsbaum zu finden, ist nicht lösbar. Aber man kann versuchen einen möglichst kleinen zu finden. Zu diesem Zweck geht der DECISION-TREE-LEARNING-Algorithmus so vor, dass er immer das wichtigste Attribut zuerst testet. Damit ist dasjenige Attribut gemeint, nach dem sich die Beispiele am stärksten unterscheiden. Auf diese Weise wird versucht eine korrekte Klassifikation mit einer kleinen Menge von Tests zu bekommen, wodurch die Pfade im Entscheidungsbaum kurz werden und der Baum insgesamt klein wird. function DECISION-TREE-LEARNING(Beispiele, Attribute, Default) returns einen Baum inputs: Beispiele eine Menge von Beispielen Attribute eine Menge von Attributen Default ein Default-Wert für das Zielprädikat if Beispiele ist leer then return Default else if alle Beispiele haben dieselbe Klassifikation then return die Klassifikation else if Attribute ist leer then return MAJORITY-VALUE(Beispiele) else best CHOOSE-ATTRIBUTE(Attribute, Beispiele) Baum ein neuer Entscheidungsbaum mit Wurzeltest best for each Wert v i von best do Beispiele i {Elemente von Beispiele mit best = v i } subtree DECISION-TREE-LEARNING(Beispiele i, Attribute - best, MAJORITY-VALUE(Beispiele)) füge einen Zweig zu Baum hinzu mit Marke v i und Teilbaum subtree end return Baum Nachdem die erste Aufteilung der Testmenge durch das erste Attribut erfolgt ist, entstehen mehrere neue Entscheidungsbaum-Lernprobleme mit weniger Beispielen und einem Attribut weniger. Die Konstruktion des Entscheidungsbaums erfolgt also rekursiv. Vier Fälle sind dabei zu unterscheiden: 1. Wenn die Teilmenge einige positive und einige negative Beispiele enthält, dann wähle das beste Attribut um sie weiter zu unterteilen. 2. Wenn alle Beispiele in der Teilmenge positiv sind (bzw. alle negativ), dann ist der Zweig des Baums fertig. Man kann mit (bzw. ) antworten. 3. Wenn die Teilmenge leer ist bedeutet dies, dass kein Beispiel mit der durch die bisher benutzten Attribute beschriebenen Eigenschaften vorliegt. Es wird ein Defaultwert zurückgegeben, der auf Grund der mehrheitlichen Klassifikation am Vorgängerknoten berechnet wird. 4. Wenn keine Attribute übrig sind aber die Teilmenge nicht leer ist und sowohl positive als auch negative Beispiel enthält, bedeutet dies, dass diese Beispiele zwar verschiedene Klassifikation haben, aber die gleichen Eigenschaften, zumindest so weit sie auf Grund der definierten Attribute beschreibbar sind. Dieser Fall tritt ein, wenn einige Daten falsch sind, d.h. wenn sie verrauscht sind, oder wenn die Attribute nicht genügend Information enthalten um die vorliegende Situation zu beschreiben oder wenn die Domäne nicht deterministisch ist. In diesem Fall trifft man eine Mehrheitsentscheidung. Konstruiert man den Entscheidungsbaum für die Beispiele von Tabelle 3.1 nach dieser Vorschrift, dann erhält man den Entscheidungsbaum von Abbildung 3.2.

19 Data Mining Seite 19 Gäste? Keine Einige Voll Hungrig? Typ? Französisch Italienisch Chinesisch Fr/Sa? Burger Abbildung 3.2 Die Diskrepanz zwischen dem Ausgangsbaum und dem Ergebnisbaum ist sicher auch der kleinen Anzahl von Beispielen zuzuschreiben. Mit mehr Beispielen dürfte der Unterschied geringer ausfallen. Der Baum von Abbildung 3.2 ist auch keine sehr gute Hypothese, denn z.b. kommt der Fall, dass ein Restaurant voll und die Wartezeit 0 10 Minuten beträgt, gar nicht vor. Im Fall von Hunger sagt der Baum, dass nicht gewartet werden soll, aber wenn die Wartezeit höchstens 10 Minuten beträgt, wird man in der Regel warten. Diese Beobachtung führt zu der Frage nach der Korrektheit der Hypothese Abschätzung der Performanz des Lernalgorithmus Die Qualität eines Lernalgorithmus kann danach eingeschätzt werden, wie gut er neue, vorher nicht betrachtete Beispiele klassifiziert. Dazu muss die Klassifikation dieser Beispiele aber vorab bekannt sein. Die Menge der Beispiele, die für diesen Zweck verwendet werden, heißt Testmenge. Diese Menge reserviert man üblicherweise von vornherein für den Test, ansonsten müsste man nach neuen Beispielen suchen und deren Klassifikation bestimmen. Im Einzelnen geht man in folgenden Schritten vor: 1. Sammle eine große Menge von Beispielen. 2. Unterteile die Menge in zwei disjunkte Teilmengen, die Trainingsmenge und die Testmenge. 3. Erzeuge mit dem Lernalgorithmus auf der Basis der Trainingsmenge eine Hypothese H. 4. Bestimme den Prozentsatz der Beispiele in der Testmenge, die durch H korrekt klassifiziert werden. 5. Wiederhole die Schritte 1. bis 4. für verschieden große und zufällig ausgewählte Trainingsmengen. Durch Anwendung dieser Schritte erhält man eine Menge von Daten, auf Grund derer die durchschnittliche Vorhersagequalität als eine Funktion der Größe der Trainingsmenge angegeben werden kann. Diese Funktion ergibt in grafischer Form dargestellt die so genannte Lernkurve des Algorithmus auf der betrachteten Domäne. Abbildung 3.3 zeigt den ungefähren Verlauf der Lernkurve für den Algorithmus DECISION-TREE-LEARNING auf der Restaurant-Domäne.

20 Data Mining Seite Korrektheit auf der Testmenge in % Größe der Trainingsmenge Abbildung Praktischer Gebrauch des Entscheidungsbaum-Lernens Gas-Öl-Trenner BP brachte 1986 ein Expertensystem mit Namen GASOIL zum Einsatz. Sein Zweck war der Entwurf von Gas-Öl-Trennanlagen für Offshore-Ölplattformen. Die Trennung von Gas und Öl erfordert ein sehr großes, komplexes und teures Trennsystem, dessen Entwurf eine Anzahl von Attributen betrifft, u.a. die relativen Anteile von Gas, Öl und Wasser, die Flussrate, den Druck, die Dichte, die Viskosität und die Temperatur. GASOIL enthielt ungefähr 2500 Regeln. Der Bau eines solchen Expertensystems von Hand erfordert ungefähr 10 Personen-hre. Statt dessen wurde ein Entscheidungsbaum-Lernverfahren auf eine Datenbasis von existierenden Entwürfen angewandt. Damit wurde das Expertensystem in 100 Personen-Tagen entwickelt. Es soll besser sein als menschliche Experten und viele Millionen Dollar eingespart haben. Fliegen lernen im Flugsimulator Sammut et al. entwickelten 1992 einen automatischen Piloten für eine Cessna. Die Beispieldaten wurden durch Beobachtung von drei erfahrenen Piloten im Flugsimulator gewonnen. Jeder der Piloten führte 30 Minuten lang einen vordefinierten Flugplan aus. Jedes Mal wenn ein Pilot eine Steueraktion durchführte indem er eine Steuervariable setzte, z.b. Schub oder Flügelklappen, wurde ein Beispiel erzeugt. Insgesamt wurden Beispiele erzeugt, jedes durch 20 Zustandsvariable beschrieben und mit der durchgeführten Aktion markiert. Aus den Beispielen wurde mit Hilfe des C4.5-Algorithmus ein Entscheidungsbaum erzeugt. Der Baum wurde in ein C-Programm umgesetzt und dieses in die Steuerschleife des Flugsimulators integriert, so dass das Programm das Flugzeug selbst fliegen konnte. Die Ergebnisse waren überraschend. Das Programm konnte nicht nur fliegen, sondern sogar besser fliegen als die menschlichen Lehrer. Der Grund dafür ist, dass beim Lernen gelegentliche Fehler der einzelnen Menschen durch Verallgemeinerung ausgeglichen wurden. Das deutet an, dass für schwierige Aufgaben wie das Fliegen von Hubschraubern, die schwere Lasten bei starkem Wind tragen, mit den Methoden des Maschinellen Lernens Autopiloten entwickelt werden könnten. Bis jetzt gibt es solche nicht und es gibt auch nur wenige menschliche Piloten dafür.

21 Data Mining Seite Die Verwendung der Informationstheorie Das Prinzip des Informationsgewinns Zur Implementierung der CHOOSE-ATTRIBUTE-Funktion benötigt man ein Maß für gute und unnütze Attribute. Dieses Maß muss seinen größten Wert für perfekte Attribute und seinen kleinsten Wert für völlig wertlose Attribute haben. Ein solches Maß ist der erwartete Gehalt an Information, der von einem Attribut geliefert wird. Der Begriff Information ist dabei im Sinne der Shannonschen Informationstheorie zu verstehen. Eine Information in diesem Sinn ist eine Antwort auf eine Frage. Wenn man eine auf die Frage schon relativ gut zutreffende Vermutung hat, dann ist die Antwort weniger informativ als wenn man überhaupt nichts weiß. In der Informationstheorie wird der Gehalt einer Information in Bits gemessen. Ein Bit Information genügt um eine /-Frage zu beantworten, über deren Antwort man keinerlei Vorstellung hat, wie dem Fall einer Münze. Wenn die möglichen Antworten v i auf die Frage die Wahrscheinlichkeiten P(v i ) haben, dann ist der Informationsgehalt I der tatsächlichen Antwort definiert durch I( P( v ),..., P( v )) = i n n i= 1 P( v )log i 2 P( vi ) log 2 P -Aus- Dies ist der durchschnittliche Informationsgehalt der verschiedenen Antworten (die drücke), gewichtet mit den Wahrscheinlichkeiten der Antworten. Beim Entscheidungsbaum-Lernen ist die zu beantwortende Frage: Was ist die korrekte Klassifikation für ein gegebenes Beispiel? Ein korrekter Entscheidungsbaum liefert die Antwort. Eine Schätzung der Wahrscheinlichkeiten der möglichen Antworten vor dem Test der Attribute ist durch das Verhältnis der positiven und negativen Beispiele in der Trainingsmenge gegeben. Angenommen, die Trainingsmenge enthalte p positive und n negative Beispiele. Dann wird der Informationsgehalt einer korrekten Antwort wie folgt abgeschätzt: p n I, = p + n p + n p p n log 2 log 2 p + n p + n p + n n p + n i i i i i + Der Test eines einzelnen Attributs gibt im Allgemeinen nicht so viel Information, aber immerhin einen Teil davon. Das Maß an Information, das ein Attribut liefert, wird daran gemessen, wie viel Information nach dem Attributtest für eine korrekte Antwort noch benötigt wird. Jedes Attribut A unterteilt die Trainingsmenge E in die Teilmengen E 1,..., E v, entsprechend ihren Werten für A, wobei angenommen ist, dass A v verschiedene Werte haben kann. Jede Teilmenge E i enthält p i positive und n i negative Beispiele. Wenn man also auf dem i-ten Zweig des Baums fortfährt, benötigt man zusätzlich I( p ( p + n ), n ( p n )) Bits an Information um die Frage zu beantworten. Ein zufällig ausgewähltes Beispiel hat mit der Wahrscheinlichkeit ( p i + n i ) ( p + n) den i- ten Wert des Attributs, deshalb benötigt man im Durchschnitt nach dem Test des Attributs A v p i + ni pi ni Re st( A) = I, i= 1 p + n pi + ni pi + ni Bits an Information um das Beispiel zu klassifizieren. Der Informationsgewinn aus dem Attributtest ist definiert durch die Differenz zwischen dem ursprünglichen Informationsbedarf und dem neuen Informationsbedarf: i

22 Data Mining Seite 22 p n Gain( A) = I, Rest( A) p + n p + n Die Heuristik, die in der CHOOSE-ATTRIBUTE-Funktion benutzt wird, ist das Attribut mit dem größten Informationsgewinn zu wählen Rauschen und Overfitting Wenn es bei einem Lernproblem eine große Menge möglicher Hypothesen gibt, besteht die Gefahr, dass man beim Lernen bedeutungslose Regelmäßigkeiten in den Daten entdeckt. Dieses Problem heißt Overfitting. Es ist ein sehr allgemeines Phänomen und kann in allen möglichen Lernverfahren vorkommen, nicht nur bei Entscheidungsbäumen. Eine einfache Technik zur Vermeidung des Overfitting ist das Pruning. Durch das Pruning wird verhindert, dass Attribute für die Aufteilung einer Menge verwendet werden, die nicht wirklich relevant sind, selbst wenn die Beispiele an diesem Knoten nicht uniform klassifiziert sind. Die Frage ist, wie irrelevante Attribute entdeckt werden. Der Informationsgewinn bietet dafür eine Möglichkeit. Angenommen man teilt eine Menge von Beispielen mit einem irrelevanten Attribut auf. Die entstehenden Teilmengen haben dann in der Regel etwa dieselbe Verteilung von positiven und negativen Beispielen wie die ursprüngliche Menge. Dann ist der Informationsgewinn annähernd Null. Damit stellt sich umgekehrt die Frage, ab welchem Informationsgewinn es sich lohnt, ein Attribut zur Aufteilung der Beispielmenge zu verwenden. Mit dieser Frage beschäftigen sich statistische Signifikanztests. Ein Signifikanztest beginnt mit der Annahme, es gebe in den vorliegenden Beispielen kein zugrunde liegendes Muster (so genannte Nullhypothese). Dann werden die Daten analysiert um festzustellen, wie weit sie vom vollständigen Fehlen eines Musters abweichen. Wenn der Grad der Abweichung statistisch unwahrscheinlich ist, dann besteht beträchtliche Evidenz für das Vorliegen eines signifikanten Musters in den Daten. Im Fall der Entscheidungsbäume ist die Nullhypothese, dass das gerade betrachtete Attribut irrelevant ist und damit der Informationsgewinn für eine unendlich große Menge von Beispielen Null. Nun muss die Wahrscheinlichkeit dafür berechnet werden, dass unter Annahme der Nullhypothese eine Beispielmenge der Größe v die beobachtete Abweichung von der erwarteten Verteilung der positiven und negativen Beispiele zeigt. Die Abweichung kann man messen, indem man die tatsächlichen Anzahlen positiver und negativer Beispiele in jeder Teilmenge, also p i und n i, mit den erwarteten Zahlen pˆ i und nˆi vergleicht, wobei man vollständige Irrelevanz voraussetzt: pˆ i pi + ni = p nˆ p + n i = n pi + ni p + n Ein Maß für die Gesamtabweichung ist definiert durch v ( pi pˆ i ) D = pˆ i= 1 i 2 ( ni + nˆ i ) nˆ i 2 Unter der Nullhypothese ist der Wert von D entsprechend der χ 2 -Verteilung mit v 1 Freiheitsgraden verteilt. Mit Hilfe von χ 2 -Tabellen oder statistischer Software kann dann berechnet werden mit welcher Wahrscheinlichkeit ein Attribut wirklich irrelevant ist.

23 Data Mining Seite 23 Pruning hat auch Vorteile, wenn Daten verrauscht sind. Bei stark verrauschten Daten liefern Bäume mit Pruning bessere Ergebnisse als solche ohne Pruning. Bäume mit Pruning sind meist wesentlich kompakter und deshalb auch besser zu verstehen Erweiterung der Anwendbarkeit von Entscheidungsbäumen Um den Einsatzbereich des Entscheidungsbaum-Lernens zu erweitern muss man Maßnahmen ergreifen um fehlende Daten zu ergänzen und um Attribute mit besonderen Eigenschaften verwendbar zu machen. Fehlende Daten In vielen Anwendungsbereichen sind nicht alle Attributwerte für jedes Beispiel bekannt. Das kann daran liegen, dass sie nicht erfasst wurden oder dass es zu aufwändig ist sie zu ermitteln. Hier sind zwei Probleme zu lösen: 1. Wie modifiziert man die Konstruktion des Entscheidungsbaums, insbesondere die Definition des Informationsgewinns, wenn bei einigen Beispielen Attributwerte fehlen? 2. Wie klassifiziert man ein neues Beispiel mit einem bestehenden Entscheidungsbaum, wenn eines der Testattribute nicht anwendbar ist? Attribute mit vielen Werten Ist die Zahl der Werte eines Attributs sehr hoch, dann kann der Extremfall eintreten, dass das Attribut für jedes Beispiel einen eigenen Wert hat und damit lauter einelementige Mengen entstehen. Der Informationsgewinn hätte dann für dieses Attribut den höchsten Wert. Trotzdem wäre das Attribut irrelevant oder nutzlos. Um solche Attribute zu behandeln kann man den Gain Ratio verwenden. Ein Beispiel für ein solches extremes Attribut im Restaurant-Beispiel wäre der Name des Restaurants. Er liefert, zumindest innerhalb eines bestimmten geografischen Bereichs, lauter einelementige Teilmengen. Attribute mit kontinuierlichen Werten Manche Attribute haben kontinuierliche Wertebereiche, z.b. Attribute wie Größe oder Gewicht. Um sie für das Entscheidungsbaum-Lernen verwendbar zu machen diskretisiert man üblicherweise die Wertebereiche. Das wird meistens von Hand gemacht. Eine bessere Methode ist, die Attribute im Rahmen des Lernprozesses vorab zu behandeln um herauszufinden, welche Unterteilung des Wertebereichs die nützlichste Information für die Zwecke der Klassifikation liefert.

24 Data Mining Seite 24 Fragen 1. Was ist beim induktiven Lernen die Eingabe und was wird gelernt? 2. Was ist bei einem Entscheidungsbaum die Ein- und die Ausgabe und womit sind die Knoten und Kanten des Baums beschriftet? 3. Was ist die Trainingsmenge für das Erzeugen eines Entscheidungsbaums? 4. Wie ist ein Beispiel für die Eingabe in einen Entscheidungsbaum aufgebaut? 5. Welche Eigenschaften sollte ein guter Entscheidungsbaum haben? 6. Skizzieren Sie die Vorgehensweise des Decision-Tree-Learning-Algorithmus! 7. Was kann man tun, wenn bei der Entscheidungsbaumkonstruktion die Menge der Beispiele leer wird und was, wenn die Menge der Attribute leer wird? 8. Wie kann man die Qualität (Performanz) eines Entscheidungsbaums oder allgemein einer Hypothese abschätzen? 9. Was ist ein Maß für gute oder nützliche Attribute bei der Entscheidungsbaumkonstruktion? 10. Wie berechnet man den Informationsgehalt einer Antwort auf eine Frage? 11. Wie lässt sich der Informationsgewinn aus einem Attributtest berechnen? 12. Was ist Overfitting und wie kann man es vermeiden? 13. Wie kann man Entscheidungsbäume konstruieren, wenn die Attribute der Beispiele kontinuierliche Wertebereiche haben?

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Anmerkungen zur Übergangsprüfung

Anmerkungen zur Übergangsprüfung DM11 Slide 1 Anmerkungen zur Übergangsprüfung Aufgabeneingrenzung Aufgaben des folgenden Typs werden wegen ihres Schwierigkeitsgrads oder wegen eines ungeeigneten fachlichen Schwerpunkts in der Übergangsprüfung

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Tutorial: Wie erfasse ich einen Termin? In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Neben den allgemeinen Angaben zu einem

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer

Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Klassendiagramme Ein Klassendiagramm dient in der objektorientierten Softwareentwicklung zur Darstellung von Klassen und den Beziehungen,

Mehr

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten bedingten Wahrscheinlichkeit. Mathematik- Unterrichts- Einheiten- Datei e. V. Klasse 9 12 04/2015 Diabetes-Test Infos: www.mued.de Blutspenden werden auf Diabetes untersucht, das mit 8 % in der Bevölkerung verbreitet ist. Dabei werden

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Wir arbeiten mit Zufallszahlen

Wir arbeiten mit Zufallszahlen Abb. 1: Bei Kartenspielen müssen zu Beginn die Karten zufällig ausgeteilt werden. Wir arbeiten mit Zufallszahlen Jedesmal wenn ein neues Patience-Spiel gestartet wird, muss das Computerprogramm die Karten

Mehr

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Allgemein: Das RSA-Verschlüsselungsverfahren ist ein häufig benutztes Verschlüsselungsverfahren, weil es sehr sicher ist. Es gehört zu der Klasse der

Mehr

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders

Mehr

Übungen 19.01.2012 Programmieren 1 Felix Rohrer. Übungen

Übungen 19.01.2012 Programmieren 1 Felix Rohrer. Übungen Übungen if / else / else if... 2... 2 Aufgabe 2:... 2 Aufgabe 3:... 2 Aufgabe 4:... 2 Aufgabe 5:... 2 Aufgabe 6:... 2 Aufgabe 7:... 3 Aufgabe 8:... 3 Aufgabe 9:... 3 Aufgabe 10:... 3 switch... 4... 4 Aufgabe

Mehr

Programmierkurs Java

Programmierkurs Java Programmierkurs Java Dr. Dietrich Boles Aufgaben zu UE16-Rekursion (Stand 09.12.2011) Aufgabe 1: Implementieren Sie in Java ein Programm, das solange einzelne Zeichen vom Terminal einliest, bis ein #-Zeichen

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Grundlagen der Theoretischen Informatik, SoSe 2008

Grundlagen der Theoretischen Informatik, SoSe 2008 1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)

Mehr

15 Optimales Kodieren

15 Optimales Kodieren 15 Optimales Kodieren Es soll ein optimaler Kodierer C(T ) entworfen werden, welcher eine Information (z.b. Text T ) mit möglichst geringer Bitanzahl eindeutig überträgt. Die Anforderungen an den optimalen

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Das Briefträgerproblem

Das Briefträgerproblem Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................

Mehr

Binärdarstellung von Fliesskommazahlen

Binärdarstellung von Fliesskommazahlen Binärdarstellung von Fliesskommazahlen 1. IEEE 754 Gleitkommazahl im Single-Format So sind in Gleitkommazahlen im IEEE 754-Standard aufgebaut: 31 30 24 23 0 S E E E E E E E E M M M M M M M M M M M M M

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de

Mehr

Erstellen von x-y-diagrammen in OpenOffice.calc

Erstellen von x-y-diagrammen in OpenOffice.calc Erstellen von x-y-diagrammen in OpenOffice.calc In dieser kleinen Anleitung geht es nur darum, aus einer bestehenden Tabelle ein x-y-diagramm zu erzeugen. D.h. es müssen in der Tabelle mindestens zwei

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Informationsblatt Induktionsbeweis

Informationsblatt Induktionsbeweis Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r ) Definition B : Menge der binären Bäume, rekursiv definiert durch die Regeln: ist ein binärer Baum sind t l, t r binäre Bäume, so ist auch t =, t l, t r ein binärer Baum nur das, was durch die beiden vorigen

Mehr

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten Kugel-Fächer-Modell n Kugeln (Rosinen) sollen auf m Fächer (Brötchen) verteilt werden, zunächst 3 Kugeln auf 3 Fächer. 1fach 3fach Für die Einzelkugel gibt es 3 Möglichkeiten } 6fach 3! Möglichkeiten Es

Mehr

Berechnung der Erhöhung der Durchschnittsprämien

Berechnung der Erhöhung der Durchschnittsprämien Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die

Mehr

Übungsaufgaben Prozentrechnung und / oder Dreisatz

Übungsaufgaben Prozentrechnung und / oder Dreisatz Übungsaufgaben Prozentrechnung und / oder Dreisatz 1. Bei der Wahl des Universitätssprechers wurden 800 gültige Stimmen abgegeben. Die Stimmen verteilten sich so auf die drei Kandidat/innen: A bekam 300,

Mehr

Übungen für Woche 10

Übungen für Woche 10 Übungen für Woche 10 Martin Rubey 12. Januar 2011 Die folgenden Übungen sollen den Umgang mit Backtracking und kombinatorischen Spezies näherbringen. Genaue Hinweise gibt es erst auf Seite 5. Zur Erinnerung:

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Konzepte der Informatik

Konzepte der Informatik Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Kapitalerhöhung - Verbuchung

Kapitalerhöhung - Verbuchung Kapitalerhöhung - Verbuchung Beschreibung Eine Kapitalerhöhung ist eine Erhöhung des Aktienkapitals einer Aktiengesellschaft durch Emission von en Aktien. Es gibt unterschiedliche Formen von Kapitalerhöhung.

Mehr

EINFACHES HAUSHALT- KASSABUCH

EINFACHES HAUSHALT- KASSABUCH EINFACHES HAUSHALT- KASSABUCH Arbeiten mit Excel Wir erstellen ein einfaches Kassabuch zur Führung einer Haushalts- oder Portokasse Roland Liebing, im November 2012 Eine einfache Haushalt-Buchhaltung (Kassabuch)

Mehr

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Bernhard Ganter Institut für Algebra TU Dresden D-01062 Dresden bernhard.ganter@tu-dresden.de WS 2013/14 Isomorphie Zwei Graphen (V 1, E 1 ) und (V

Mehr

Lange Nacht der Wissenschaft. Ein Klassiker. Die Mathematik der Kürzesten Wege

Lange Nacht der Wissenschaft. Ein Klassiker. Die Mathematik der Kürzesten Wege Lange Nacht der Wissenschaft Ein Klassiker Die Mathematik der Kürzesten Wege 09.06.2007 schlechte@zib.de Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) http://www.zib.de/schlechte 2 Überblick

Mehr

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum C A R L V O N O S S I E T Z K Y Agile Vorgehensmodelle in der Softwareentwicklung: Scrum Johannes Diemke Vortrag im Rahmen der Projektgruppe Oldenburger Robot Soccer Team im Wintersemester 2009/2010 Was

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: If-clauses - conditional sentences - Nie mehr Probleme mit Satzbau im Englischen! Das komplette Material finden Sie hier: School-Scout.de

Mehr

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen. Instruktionen am Anfang von Experiment 1 (auf Papier ausgeteilt: grünmarkierte Textstellen zeigen den Instruktionstext in der jeweiligen Bedingung an; Kommentare sind gelb markiert.) Stellen Sie sich vor,

Mehr

Diagnostisches Interview zur Bruchrechnung

Diagnostisches Interview zur Bruchrechnung Diagnostisches Interview zur Bruchrechnung (1) Tortendiagramm Zeigen Sie der Schülerin/dem Schüler das Tortendiagramm. a) Wie groß ist der Teil B des Kreises? b) Wie groß ist der Teil D des Kreises? (2)

Mehr

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term

Mehr

Modellbildungssysteme: Pädagogische und didaktische Ziele

Modellbildungssysteme: Pädagogische und didaktische Ziele Modellbildungssysteme: Pädagogische und didaktische Ziele Was hat Modellbildung mit der Schule zu tun? Der Bildungsplan 1994 formuliert: "Die schnelle Zunahme des Wissens, die hohe Differenzierung und

Mehr

Algorithmik II. a) Fügen Sie in einen anfangs leeren binären Baum die Schlüsselfolge 20, 28, 35, 31, 9, 4, 13, 17, 37, 25 ein.

Algorithmik II. a) Fügen Sie in einen anfangs leeren binären Baum die Schlüsselfolge 20, 28, 35, 31, 9, 4, 13, 17, 37, 25 ein. Aufgabe 10 Binäre Bäume a) Fügen Sie in einen anfangs leeren binären Baum die Schlüsselfolge, 28, 35, 31, 9, 4,, 17, 37, 25 ein. 1. Einfügen von : 3. Einfugen von 35: 2. Einfügen von 28: 28 28 10. Einfügen

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

OP-LOG www.op-log.de

OP-LOG www.op-log.de Verwendung von Microsoft SQL Server, Seite 1/18 OP-LOG www.op-log.de Anleitung: Verwendung von Microsoft SQL Server 2005 Stand Mai 2010 1 Ich-lese-keine-Anleitungen 'Verwendung von Microsoft SQL Server

Mehr

Beweisbar sichere Verschlüsselung

Beweisbar sichere Verschlüsselung Beweisbar sichere Verschlüsselung ITS-Wahlpflichtvorlesung Dr. Bodo Möller Ruhr-Universität Bochum Horst-Görtz-Institut für IT-Sicherheit Lehrstuhl für Kommunikationssicherheit bmoeller@crypto.rub.de 6

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 12.01.2012 INSTITUT FÜR THEORETISCHE 0 KIT 12.01.2012 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

Bewertung des Blattes

Bewertung des Blattes Bewertung des Blattes Es besteht immer die Schwierigkeit, sein Blatt richtig einzuschätzen. Im folgenden werden einige Anhaltspunkte gegeben. Man unterscheidet: Figurenpunkte Verteilungspunkte Längenpunkte

Mehr

Binäre Bäume Darstellung und Traversierung

Binäre Bäume Darstellung und Traversierung Binäre Bäume Darstellung und Traversierung Name Frank Bollwig Matrikel-Nr. 2770085 E-Mail fb641378@inf.tu-dresden.de Datum 15. November 2001 0. Vorbemerkungen... 3 1. Terminologie binärer Bäume... 4 2.

Mehr

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 4 Die Datenbank Kuchenbestellung In diesem Kapitel werde ich die Theorie aus Kapitel 2 Die Datenbank Buchausleihe an Hand einer weiteren Datenbank Kuchenbestellung

Mehr

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3 Handbuch Fischertechnik-Einzelteiltabelle V3.7.3 von Markus Mack Stand: Samstag, 17. April 2004 Inhaltsverzeichnis 1. Systemvorraussetzungen...3 2. Installation und Start...3 3. Anpassen der Tabelle...3

Mehr

P = U eff I eff. I eff = = 1 kw 120 V = 1000 W

P = U eff I eff. I eff = = 1 kw 120 V = 1000 W Sie haben für diesen 50 Minuten Zeit. Die zu vergebenen Punkte sind an den Aufgaben angemerkt. Die Gesamtzahl beträgt 20 P + 1 Formpunkt. Bei einer Rechnung wird auf die korrekte Verwendung der Einheiten

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

3. Verpackungskünstler. Berechnungen am Quader, Umgang mit Termen, räumliche Vorstellung

3. Verpackungskünstler. Berechnungen am Quader, Umgang mit Termen, räumliche Vorstellung Berechnungen am Quader, Umgang mit Termen, räumliche Vorstellung Päckchen, die man verschenken möchte, werden gerne mit Geschenkband verschnürt. Dazu wird das Päckchen auf seine größte Seite gelegt, wie

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen. Zusätze zum Gelben Rechenbuch LU-Zerlegung Peter Furlan Verlag Martina Furlan Inhaltsverzeichnis Definitionen 2 (Allgemeine) LU-Zerlegung 2 3 Vereinfachte LU-Zerlegung 3 4 Lösung eines linearen Gleichungssystems

Mehr

Schritt für Schritt zur Krankenstandsstatistik

Schritt für Schritt zur Krankenstandsstatistik Schritt für Schritt zur Krankenstandsstatistik Eine Anleitung zur Nutzung der Excel-Tabellen zur Erhebung des Krankenstands. Entwickelt durch: Kooperationsprojekt Arbeitsschutz in der ambulanten Pflege

Mehr

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger Software Engineering (Übungsblatt 2) Sommersemester 2012, Dr. Andreas Metzger Übungsblatt-Themen: Prinzip, Technik, Methode und Werkzeug; Arten von Wartung; Modularität (Kohäsion/ Kopplung); Inkrementelle

Mehr

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel 3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36

Mehr

Anwendungshinweise zur Anwendung der Soziometrie

Anwendungshinweise zur Anwendung der Soziometrie Anwendungshinweise zur Anwendung der Soziometrie Einführung Die Soziometrie ist ein Verfahren, welches sich besonders gut dafür eignet, Beziehungen zwischen Mitgliedern einer Gruppe darzustellen. Das Verfahren

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Grammatiken. Einführung

Grammatiken. Einführung Einführung Beispiel: Die arithmetischen Ausdrücke über der Variablen a und den Operationen + und können wie folgt definiert werden: a, a + a und a a sind arithmetische Ausdrücke Wenn A und B arithmetische

Mehr

Guten Morgen und Willkommen zur Saalübung!

Guten Morgen und Willkommen zur Saalübung! Guten Morgen und Willkommen zur Saalübung! 1 Wie gewinnt man ein Spiel? Was ist ein Spiel? 2 Verschiedene Spiele Schach, Tic-Tac-Toe, Go Memory Backgammon Poker Nim, Käsekästchen... 3 Einschränkungen Zwei

Mehr

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN CHRISTIAN HARTFELDT. Zweiter Mittelwertsatz Der Mittelwertsatz Satz VI.3.4) lässt sich verallgemeinern zu Satz.. Seien f, g : [a, b] R auf [a,

Mehr

4. BEZIEHUNGEN ZWISCHEN TABELLEN

4. BEZIEHUNGEN ZWISCHEN TABELLEN 4. BEZIEHUNGEN ZWISCHEN TABELLEN Zwischen Tabellen können in MS Access Beziehungen bestehen. Durch das Verwenden von Tabellen, die zueinander in Beziehung stehen, können Sie Folgendes erreichen: Die Größe

Mehr

Zahlenoptimierung Herr Clever spielt optimierte Zahlen

Zahlenoptimierung Herr Clever spielt optimierte Zahlen system oder Zahlenoptimierung unabhängig. Keines von beiden wird durch die Wahrscheinlichkeit bevorzugt. An ein gutes System der Zahlenoptimierung ist die Bedingung geknüpft, dass bei geringstmöglichem

Mehr

Excel 2013. Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F

Excel 2013. Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F Excel 2013 Peter Wies 1. Ausgabe, März 2013 Fortgeschrittene Techniken EX2013F 15 Excel 2013 - Fortgeschrittene Techniken 15 Spezielle Diagrammbearbeitung In diesem Kapitel erfahren Sie wie Sie die Wert-

Mehr

Summenbildung in Bauteiltabellen mit If Then Abfrage

Summenbildung in Bauteiltabellen mit If Then Abfrage Summenbildung in Bauteiltabellen mit If Then Abfrage Die in Bauteiltabellen ausgelesenen Werte lassen sich in jeder Spalte als Summe berechnen. So können selbstverständlich die Flächen der in der Tabelle

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen: VBA Programmierung mit Excel Schleifen 1/6 Erweiterung der Aufgabe Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen: Es müssen also 11 (B L) x 35 = 385 Zellen berücksichtigt

Mehr

Kreativ visualisieren

Kreativ visualisieren Kreativ visualisieren Haben Sie schon einmal etwas von sogenannten»sich selbst erfüllenden Prophezeiungen«gehört? Damit ist gemeint, dass ein Ereignis mit hoher Wahrscheinlichkeit eintritt, wenn wir uns

Mehr

Was meinen die Leute eigentlich mit: Grexit?

Was meinen die Leute eigentlich mit: Grexit? Was meinen die Leute eigentlich mit: Grexit? Grexit sind eigentlich 2 Wörter. 1. Griechenland 2. Exit Exit ist ein englisches Wort. Es bedeutet: Ausgang. Aber was haben diese 2 Sachen mit-einander zu tun?

Mehr

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.

Mehr

Einführung in die Algebra

Einführung in die Algebra Prof. Dr. H. Brenner Osnabrück SS 2009 Einführung in die Algebra Vorlesung 13 Einheiten Definition 13.1. Ein Element u in einem Ring R heißt Einheit, wenn es ein Element v R gibt mit uv = vu = 1. DasElementv

Mehr

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Der Gutachtenstil: Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Das Ergebnis steht am Schluß. Charakteristikum

Mehr