Data Mining (ehem. Entscheidungsunterstützungssysteme)

Größe: px
Ab Seite anzeigen:

Download "Data Mining (ehem. Entscheidungsunterstützungssysteme)"

Transkript

1 Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15

2 AGENDA TEIL 1 Aufgabe 2 (Wiederholung OPAL / Vorlesungsinhalte)

3 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe a) Was sind die wesentlichen Unterschiede zwischen einem überwachten und einem unüberwachten Verfahren? Überwachte Verfahren: Die Klassen, in die Daten eingeteilt werden sollen, sind vorgegeben (beim unüberwachten hingegen nicht). Das überwachte Verfahren lernt dementsprechend anhand einer bestimmten Anzahl von positiven oder negativen Beispielen. Beispiel: Klassifikation (BETRUG oder NICHT BETRUG) Unüberwachte Verfahren: Beispiel: Segmentierung von Kunden (Telekom), Entdeckung von Assoziationsregeln (Kaufverhalten) b) Welche Anforderungen an die Daten bestehen hinsichtlich der Verwendung eines überwachten bzw. unüberwachten Verfahrens? Bei überwachen Verfahren: Trainingssatz (bei dem die Objekte der korrekten Klasse zugeordnet sind) erforderlich Testdatensatz zur Verifikation des

4 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe c) Informationsgewinn, Entropie, Informationsgehalt, Informationsbedarf + Rolle für EB Informationsgehalt I (A): Tritt ein Ereignis A mit Wahrscheinlichkeit P(A)>0 ein, dann ist der Informationsgehalt I(A) dieses Eintretens definiert als: Entropie (mittlerer Informationsgehalt): (Hinweis: Entropie ursprünglich ein Begriff aus der Physik, eigentlich Shannon-Entropie Nachrichtenübertragung) Hat ein Versuch A die möglichen Ausgänge A1,..., Ak, so heißt der mittlere Informationsgehalt H(A) die Entropie des Versuchs A: Es gilt: Die Entropie beschreibt die Unordnung / Verunreinigung / Homogenität innerhalb eines Knotens: Entropie=0 -> homogener Knoten, keine Unreinheit hinsichtlich des Zielattributes (d. kein Informationsbedarf); Entropie =1 (2 Klassen, Gleichverteilt) -> inhomogen (Unordnung) Die Entropie (mittlerer Informationsgehalt) gewichtet den Informationsgehalt für die möglichen Werte der Klassifikation mit den jeweiligen Wahrscheinlichkeiten. Informationsgewinn: Gibt die erwartete Reduktion der Entropie an.

5 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe i. zwei grundsätzlich möglichen Entscheidungsbäume Variante 1: Variante 2: Attribut x Attribut y Attribut y Attribut x Alle Objekte F, G B, C, E A, D, I H 1 3,2 1,3 3 C B, E A, I D Alle Objekte A, C, G E, I B, D, F, H ,3,4 E I F B, D, H

6 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe iii. Welcher der beiden Bäume wird durch das ID3-Verfahren gewählt? Berechnung der Entropieabnahme für den ersten Schritt: E T = 5 9 log log = 0,991 E T x = log log log log = 0,612 E T y = log log = 0,583 Informationsgewinn x = 0,991 0,612 = 0,379 Informationsgewinn y = 0,991 0,583 = 0,408

7 CLUSTERVERFAHREN 2. Aufgabe a) Beschreiben Sie an einem Beispiel den betriebswirtschaftlichen Nutzen von Clusterverfahren! b) Erklären Sie den Unterschied zwischen hierarchisierenden und partitionierenden Verfahren! Partitionierendes Clustern: Unterteilung des Merkmalsraumes in eine vorgegeben Anzahl von Bereichen Schrittweise Verbesserung der initialen Zuordnung Grundvoraussetzung für die Verfahren ist, dass alle Attribute numerische Werte besitzen Bekanntestes Verfahren: K-Means Hierarchisches Clustern: Ordnet Objekte innerhalb einer Hierarchie von Clustern an Beginnend mit n Gruppen (agglomerierende Vorgehensweise, Gruppierung) oder mit einer Gruppe mit n Elementen (diversive Vorgehensweise, Aufspaltung) Bekannteste hierarchisch agglomerierende Verfahren: u.a. Single-Linkage, Complete-Linkage, Average-Linkage

8 Clusterverfahren Clusterformen: Cluster haben unterschiedliche Form, Größe und Dichte. Nicht jedes Verfahren kann die gleichen Formen und die gleichen Varianten an Clustern entdecken. So kann z.b. K-Means nur konvexe Cluster entdecken. Dichtebasierte Verfahren sind in der Lage, Cluster unterschiedlichster Formen zu entdecken. Cluster können hierarchisch angeordnet sein.

9 CLUSTERVERFAHREN 2. Aufgabe c) Welche Distanzmaße kennen Sie? Beschreiben und vergleichen Sie diese. Generell weisen niedrige Werte auf hohe Gemeinsamkeiten (=geringe Distanz) hin. Beim Vergleich der Werte sind die Maßeinheiten zu beachten. Eine Obergrenze für die Werte gibt es nicht und die Daten sollten mindestens intervallskaliert (metrisch: =/ ; </>; +/ ) sein. Beispiele für Distanzmaße sind die Manhattan Distanz (zweidimensionalen Raum ist die Distanz definiert als die Summe der rechtwinkligen Abstände) oder die euklidische Distanz (zweidimensionalen Darstellung der direkte Weg zwischen zwei Punkten): Info Namensgebung: Manhattan Metrik (Gittermetrik, City- Block-Metrik): Entfernung, die ein Taxifahrer in Manhattan, New York, zurücklegen müsste, um vom Punkt x nach y zu gelangen. Die Wahl der Distanzmaße beeinflusst die Reihenfolge der Ähnlichkeit der Klassifikationsobjekte, da Distanzen unterschiedlich gewichtet werden. -> Distanzmaße sollten daher nach inhaltlichen Überlegungen ausgewählt werden: bei City-Block-Metrik gehen Unterschiede gleichgewichtig, d.h. linear in die Formel ein bei der (quadrierten) Euklidischen Distanz werden größere Abweichungen stärker gewichtet

10 CLUSTERVERFAHREN 2. Aufgabe c) Welche Rolle spielt in diesem Zusammenhang der Gower-Koeffizient? In der Praxis arbeitet man i.a. mit Datensätzen, in denen sowohl nominale als auch numerische Merkmale auftreten. Ein populäres Maß, welches beide Sorten von Attributen berücksichtigt und gleichzeitig eine Normierung vornimmt, ist der Gower-Koeffizient. n bezeichne die Anzahl der Attribute und Ri die Spannweite (größter Wert kleinster Wert) des i-ten Attributs. Man durchläuft alle n Attribute und bildet den Mittelwert der Werte d(i) für die einzelnen Attribute. Dabei ist d(i) für nominale Attribute 0, wenn das Attribut übereinstimmt und 1, wenn die Ausprägungen verschieden sind. Im Falle numerischer Merkmale bildet man den Betrag der Differenz der beiden Merkmalswerte und teilt durch die Spannweite Ri des jeweiligen Attributs. Damit erhält man einen Wert zwischen 0 und 1. Die Distanz zwischen zwei Datensätzen x und y liegt dann als Mittelwert von Zahlen zwischen 0 und 1 wiederum selbst zwischen 0 und 1. 1 d( x, y) n n i 1 d ( i) ( x, y) mit d ( i) und 1, falls xi yi ( x, y) 0,falls xi yi ( i) xi yi d ( x, y) R i für nominale Merkmale für metrische Merkmale (Ri = Spannweite (größter Wert kleinster Wert) des i-ten Attributs)

11 CLUSTERVERFAHREN 2. Aufgabe d) Übungsaufgabe Versandhandelsunternehmen Verwenden Sie zur Lösung das K-Means-Verfahren und als Ausgangscentroide: C1 = (4,1) und C2 = (3,1). Nutzen Sie die quadrierte Euklidische Distanz als Distanzmaß. Ergebnis: Cluster 1: F1 Cluster 2: F2, F3, F4, F5

12 CLUSTERVERFAHREN 2. Aufgabe e) Übungsaufgabe OPAL (Aufgabenkomplex 4) K-Means-Verfahren, K=5 1) Normalisieren 2) Normieren 3) Initiale Cluster-Centroide und Distanz (euklidische Distanz) zum ersten zuzuordnenden Element bestimmen D C1,6 = D C2,6 = (1 0)² = 1, = 1,5 D C3,6 = 1,90 D C4,6 = 1,52 D C5,6 = 2,24 4) Neuen Cluster mit Element mit kleinsten Abstand, neuer Cendroid (arithmetisches Mittel) 5) bis Abbruchbedingung (hier K=5 Cluster erreicht)

13 CLUSTERVERFAHREN 2. Aufgabe e) Übungsaufgabe OPAL (Aufgabenkomplex 4) Single-Linkage 1) Normalisieren 2) Distanzmatrix bestimmen (Gower Koeffizient) 3) Element mit geringster Distanz bestimmen d 1,2 = d 1,3 = = 0, 06 = 0,60 4) Elemente Clustern und Distanzmatrix neu bestimmen (neuer Wert: Minimum der beiden geclusterten Elemente (Single Link)) 5) bis Abbruchbedingung (hier 5 Cluster erreicht)

14 Fragen?

15 AGENDA TEIL 2 Fallstudie 1 Teil 2 (Entscheidungsbaum) Fallstudie 2 (Clusterverfahren)

16 DM-Software RapidMiner Fallstudie I Teil 2

17 DM-Software RapidMiner erste Schritte Hauptprozess: Data Mining Bsp. Entscheidungsbaum

18 DM-Software RapidMiner erste Schritte Hauptprozess im RapidMiner: Einlesen der Daten, Einteilung in Trainings- und Testdaten, Einbinden des Validierungsblocks Doppelklick auf Validierungs-Knoten um zum nächsten Schritt zu gelangen.

19 DM-Software RapidMiner erste Schritte Modell-Lernen und Testen: Zurück zum Hauptprozess. Lernen des Modells (Trainingsdaten) Anwenden des Modells (Testdaten)

20 DM-Software RapidMiner erste Schritte Hauptprozess im RapidMiner: Einlesen der Daten, Einteilung in Trainings- und Testdaten, Einbinden des Validierungsblocks Ausgaben durch den Validierungsblock: Modell Datensatz Klassifikationsfehler Zum Abschluss: Prozess starten!

21 DM-Software RapidMiner erste Schritte Entscheidungsbaum mit maximaler Tiefe = 20:

22 DM-Software RapidMiner erste Schritte Evaluierung des Modells:

23 DM-Software RapidMiner erste Schritte Entscheidungsbaum mit maximaler Tiefe = 4:

24 DM-Software RapidMiner erste Schritte Evaluierung des Modells:

25 DM-Software RapidMiner Fallstudie 2

26 DM-Software RapidMiner Fallstudie 2 Rita hat einen Datensatz zu Kunden bezüglich Geschlecht, Gewicht und Cholesterin zur Verfügung. Sie weiß, dass es einen Zusammenhang zu Herzerkrankung gibt welchen kann sie nicht einschätzen. Da sie in ihrem Datensatz keine Daten zu tatsächlichen Herzerkrankungen zur Verfügung stehen hat, kommen nur Methoden des unüberwachten Lernens in Frage. Nur aus ihrem Allgemeinwissen schließt sie, dass Kunden mit geringem Gewicht und Cholesterinwert kaum Risiko zu Herzerkrankung besitzen. Wenn sich die restlichen Kunden in Gruppen einteilen ließen, könnte man den Fokusgruppen im weiteren spezifischen Risikoschwellen unterstellen so hofft sie. Die Einteilung nach niedrige und hohe Werte von Gewicht und Cholesterin legt vier Kombinationsmöglichkeiten nahe, d.h. vier Ziel-Cluster. konsistent, vollständig, analysierbar (siehe Meta Data View bzw. Statistics )

27 DM-Software RapidMiner Fallstudie 2 Die Einteilung nach niedrige und hohe Werte von Gewicht und Cholesterin legt vier Kombinationsmöglichkeiten nahe, d.h. vier Ziel-Cluster. (siehe Aufgabe 2) -> K=4 Einteilung in vier Cluster erscheint schlüssig, relativ gleichmäßige Verteilung der Objekte.

28 DM-Software RapidMiner Fallstudie 2 Höchste(s) Durchschnitts-gewicht/- Cholesterinwerte in Cluster 0 -> Mit der Heuristik je höher die Cholesterinwerte bzw. Gewichtswerte, desto höher das Herzerkrankungsrisiko stellt sich Cluster 0 als das gefährdetste Segment heraus.

29 DM-Software RapidMiner Fallstudie 2 Cluster 0, siehe 4.c Oder, damit der Add Filters -Button erscheint: Umstellen auf Custom-Filters

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................

Mehr

Statistische Grundlagen I

Statistische Grundlagen I Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.

Mehr

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse) Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8 .2 Einige statistische Maßzahlen.2. Die Schusser in zwei Familien Die vier Kinder der Familie Huber haben x = 5, x 2 = 7, x 3 = 9, x 4 = Schusser. Die vier Kinder der Familie Maier haben y = 7, y 2 = 7,

Mehr

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Georg Bol [email protected] Markus Höchstötter [email protected] Agenda 1. Untersuchung der Abhängigkeit 2.

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0.

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0. Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: geringe Variabilität mittlere Variabilität

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten

Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten Georg Bol [email protected] Markus Höchstötter [email protected] Agenda 1. Einleitung 2. Lorenzkurve

Mehr

Vereinfachte Clusteranalyse mit Excel

Vereinfachte Clusteranalyse mit Excel Autor: Helmut Schels, Stadt Ingolstadt, Stadtplanungsamt Vereinfachte Clusteranalyse mit Excel Clusteranalyse mit Excel nach einer der hierarchischen Methoden (Single-Linkage) Kurzbeschreibung Hintergrund

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Deskriptive Statistik

Deskriptive Statistik Modul G.1 WS 07/08: Statistik 8.11.2006 1 Deskriptive Statistik Unter deskriptiver Statistik versteht man eine Gruppe statistischer Methoden zur Beschreibung von Daten anhand statistischer Kennwerte, Graphiken,

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten)

Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Was bisher geschah Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Wissensrepräsentation und -verarbeitung in klassischer Aussagenlogik: Entscheidungstabellen,

Mehr

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsverteilungen 1. Binomialverteilung 1.1 Abzählverfahren 1.2 Urnenmodell Ziehen mit Zurücklegen, Formel von Bernoulli 1.3 Berechnung von Werten 1.4 Erwartungswert und Standardabweichung

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Analytische Statistik II

Analytische Statistik II Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben.

Mehr

Terme, Rechengesetze, Gleichungen

Terme, Rechengesetze, Gleichungen Terme, Rechengesetze, Gleichungen Ein Junge kauft sich eine CD zu 15 und eine DVD zu 23. Er bezahlt mit einem 50 - Schein. Wie viel erhält er zurück? Schüler notieren mögliche Rechenwege: (1) 15 + 23 =

Mehr

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154 Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: [email protected] Tel.: ++49 561 804-6252 Dr.

Mehr

Lineare Algebra II 5. Übungsblatt

Lineare Algebra II 5. Übungsblatt Lineare Algebra II Übungsblatt Fachbereich Mathematik SS Prof Dr Kollross / Mai Susanne Kürsten Tristan Alex Gruppenübung Aufgabe G (Algebraisch abgeschlossener Körper) Ein Körper heißt algebraisch abgeschlossen,

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester Messung von Rendite und Risiko Finanzwirtschaft I 5. Semester 1 Messung von Renditen Ergebnis der Anwendung der Internen Zinsfuß- Methode ist die Rentabilität des Projekts. Beispiel: A0-100.000 ZÜ1 54.000

Mehr

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52 2 Häufigkeitsverteilungen 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 =

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Binomialverteilung und Bernoulli- Experiment Das komplette Material finden Sie hier: Download bei School-Scout.de TOSSNET Der persönliche

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

TEIL 13: DIE LINEARE REGRESSION

TEIL 13: DIE LINEARE REGRESSION TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)

Mehr

Magische Quadrate. Mögliche Aufgabenstellungen: Überprüfen, ob ein vorgegebenes Zahlenquadrat ein magisches Quadrat ist.

Magische Quadrate. Mögliche Aufgabenstellungen: Überprüfen, ob ein vorgegebenes Zahlenquadrat ein magisches Quadrat ist. . Was sind magische Quadrate? Magische Quadrate Die Zahlen bis lassen sich auf vielerlei Arten so in einem x Quadrat anordnen, dass - jede der vier Zeilensummen, - jede der vier Spaltensummen - und auch

Mehr

Inferenzstatistik (=schließende Statistik)

Inferenzstatistik (=schließende Statistik) Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die

Mehr

Basistext Funktionen. Eine Funktion f ordnet jedem Element x aus einer Definitionsmenge D f genau ein Wert y zu.

Basistext Funktionen. Eine Funktion f ordnet jedem Element x aus einer Definitionsmenge D f genau ein Wert y zu. Basistext Funktionen Definition Eine Funktion f ordnet jedem Element x aus einer Definitionsmenge D f genau ein Wert y zu. Man schreibt: f: x -> y mit y = f(x) Die Wertemenge einer Funktion f besteht aus

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

1. Übungsaufgabe zu Exponentialfunktionen

1. Übungsaufgabe zu Exponentialfunktionen 1. Übungsaufgabe zu Exponentialfunktionen Die folgende Funktion y = f(t) = 8 t e stellt die Konzentration eines Stoffes in einer Flüssigkeit dar. y ist die Konzentration des Stoffes in mg / Liter. t ist

Mehr

Vorlesung. Machine Learning - Entscheidungsbäume

Vorlesung. Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume http://de.wikipedia.org/wiki/datei:deu_tutorial_-_hochladen_von_bildern_neu%2bcommons.svg http://www.rulequest.com/personal/

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

5 Kontinuierliches Wachstum

5 Kontinuierliches Wachstum 5 Kontinuierliches Wachstum Kontinuierlich meßbare Größe Wir betrachten nun eine Größe a, die man kontinuierlich messen kann. Den Wert von a zum Zeitpunkt t schreiben wir nun als a(t). Wir können jedem

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Musterlösung zur Übungsklausur Statistik

Musterlösung zur Übungsklausur Statistik Musterlösung zur Übungsklausur Statistik WMS4A Oettinger 6/205 Aufgabe (a) Falsch: der Modus ist die am häufigsten auftretende Merkmalsausprägung in einer Stichprobe. (b) Richtig: ein ordinales Merkmal

Mehr

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.

Mehr

Corinne Schenka Vorkurs Mathematik WiSe 2012/13. ausmultiplizieren. Anwenden von Potenzgesetzen, Wurzelgesetzen, Logarithmengesetzen

Corinne Schenka Vorkurs Mathematik WiSe 2012/13. ausmultiplizieren. Anwenden von Potenzgesetzen, Wurzelgesetzen, Logarithmengesetzen 3. Algebraische Grundlagen 3.1. Termumformungen Begriff Term: mathematischer Ausdruck, der aus Zahlen, Variablen, Rechenzeichen oder Klammern besteht Termumformungen dienen der Vereinfachung von komplexen

Mehr

Luxemburg. Norwegen. Schweiz. Island. Zypern. Niederlande. Österreich. Schweden. Deutschland. Dänemark. Frankreich. Irland.

Luxemburg. Norwegen. Schweiz. Island. Zypern. Niederlande. Österreich. Schweden. Deutschland. Dänemark. Frankreich. Irland. Einkommen (Teil 1) Einkommen (Teil 1) Medianes Nettoäquivalenzeinkommen* in in Euro Euro und und Kaufkraftstandards (KKS), (KKS), Index Index KKS KKS (Deutschland = 100), = 100), ausgewählte europäische

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs tatistik für Wirtschaftswissenschaften Lösungen UVK Verlagsgesellschaft mbh Konstanz mit UVK/Lucius München Brückenkurs tatistik für Wirtschaftswissenschaften: Lösungen

Mehr

Mittelwertvergleiche, Teil II: Varianzanalyse

Mittelwertvergleiche, Teil II: Varianzanalyse FB 1 W. Ludwig-Mayerhofer Statistik II 1 Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil II: FB 1 W. Ludwig-Mayerhofer Statistik II 2 : Wichtigste Eigenschaften Anwendbar auch bei mehr als

Mehr

Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann.

Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann. Expertengruppenarbeit Sonnenentfernung Das ist unsere Aufgabe: Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann. Konkret ist Folgendes zu tun: Lesen Sie

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Effizienz von Algorithmen

Effizienz von Algorithmen Effizienz von Algorithmen Letzte Bearbeitung: Jan 211 Ein wichtiger Aspekt bei Algorithmen sind seine "Kosten". Wir wollen uns hier ausschließlich mit der Laufzeit des gewählten Algorithmus beschäftigen.

Mehr

BÜNDELN VON MUSTERN. Grundlagen der linearen Algebra im Anhang A. Kapitel 1.

BÜNDELN VON MUSTERN. Grundlagen der linearen Algebra im Anhang A. Kapitel 1. Neuronale Netze im Klartext ISBN 3-8273-7071-X 3 BÜNDELN VON MUSTERN Lernziele Einführung in das überwachte Lernen. Sie sollten in der Lage sein: Unüberwachtes Lernen und das Prinzip der Bündelung von

Mehr

Pflichtteilaufgaben zu Stochastik (Pfadregeln, Erwartungswert, Binomialverteilung) Baden-Württemberg

Pflichtteilaufgaben zu Stochastik (Pfadregeln, Erwartungswert, Binomialverteilung) Baden-Württemberg Pflichtteilaufgaben zu Stochastik (Pfadregeln, Erwartungswert, Binomialverteilung) Baden-Württemberg Hilfsmittel: keine allgemeinbildende Gymnasien Alexander Schwarz www.mathe-aufgaben.com August 05 Übungsaufgaben:

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

Statistische Methoden

Statistische Methoden Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:

Mehr

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II, Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Was sollen Sie heute lernen? 2 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter

Mehr

Kompetenzcheck. Mathematik (AHS) Oktober 2013. Lösungsheft

Kompetenzcheck. Mathematik (AHS) Oktober 2013. Lösungsheft Kompetenzcheck Mathematik (AH) Oktober 2013 Lösungsheft Lösung zu Aufgabe 1 Rationale Zahlen 1 2 3,5 16 Ein Punkt ist nur dann zu geben, wenn alle Kreuze richtig gesetzt sind. 2 Lösung zu Aufgabe 2 Rechenoperationen

Mehr

4 Induktion von Regeln

4 Induktion von Regeln 4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung

Mehr

2 Rationale und reelle Zahlen

2 Rationale und reelle Zahlen 2 reelle Es gibt Mathematik mit Grenzwert (Analysis) und Mathematik ohne Grenzwert (z.b Algebra). Grenzwerte existieren sicher nur dann, wenn der Zahlbereich vollständig ist, also keine Lücken aufweist

Mehr

Kapitel VII - Konzentration von Merkmalswerten

Kapitel VII - Konzentration von Merkmalswerten Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VII - Konzentration von Merkmalswerten Deskriptive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh

Mehr