Data Mining (ehem. Entscheidungsunterstützungssysteme)
|
|
|
- Ruth Hoch
- vor 9 Jahren
- Abrufe
Transkript
1 Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15
2 AGENDA TEIL 1 Aufgabe 2 (Wiederholung OPAL / Vorlesungsinhalte)
3 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe a) Was sind die wesentlichen Unterschiede zwischen einem überwachten und einem unüberwachten Verfahren? Überwachte Verfahren: Die Klassen, in die Daten eingeteilt werden sollen, sind vorgegeben (beim unüberwachten hingegen nicht). Das überwachte Verfahren lernt dementsprechend anhand einer bestimmten Anzahl von positiven oder negativen Beispielen. Beispiel: Klassifikation (BETRUG oder NICHT BETRUG) Unüberwachte Verfahren: Beispiel: Segmentierung von Kunden (Telekom), Entdeckung von Assoziationsregeln (Kaufverhalten) b) Welche Anforderungen an die Daten bestehen hinsichtlich der Verwendung eines überwachten bzw. unüberwachten Verfahrens? Bei überwachen Verfahren: Trainingssatz (bei dem die Objekte der korrekten Klasse zugeordnet sind) erforderlich Testdatensatz zur Verifikation des
4 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe c) Informationsgewinn, Entropie, Informationsgehalt, Informationsbedarf + Rolle für EB Informationsgehalt I (A): Tritt ein Ereignis A mit Wahrscheinlichkeit P(A)>0 ein, dann ist der Informationsgehalt I(A) dieses Eintretens definiert als: Entropie (mittlerer Informationsgehalt): (Hinweis: Entropie ursprünglich ein Begriff aus der Physik, eigentlich Shannon-Entropie Nachrichtenübertragung) Hat ein Versuch A die möglichen Ausgänge A1,..., Ak, so heißt der mittlere Informationsgehalt H(A) die Entropie des Versuchs A: Es gilt: Die Entropie beschreibt die Unordnung / Verunreinigung / Homogenität innerhalb eines Knotens: Entropie=0 -> homogener Knoten, keine Unreinheit hinsichtlich des Zielattributes (d. kein Informationsbedarf); Entropie =1 (2 Klassen, Gleichverteilt) -> inhomogen (Unordnung) Die Entropie (mittlerer Informationsgehalt) gewichtet den Informationsgehalt für die möglichen Werte der Klassifikation mit den jeweiligen Wahrscheinlichkeiten. Informationsgewinn: Gibt die erwartete Reduktion der Entropie an.
5 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe i. zwei grundsätzlich möglichen Entscheidungsbäume Variante 1: Variante 2: Attribut x Attribut y Attribut y Attribut x Alle Objekte F, G B, C, E A, D, I H 1 3,2 1,3 3 C B, E A, I D Alle Objekte A, C, G E, I B, D, F, H ,3,4 E I F B, D, H
6 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe iii. Welcher der beiden Bäume wird durch das ID3-Verfahren gewählt? Berechnung der Entropieabnahme für den ersten Schritt: E T = 5 9 log log = 0,991 E T x = log log log log = 0,612 E T y = log log = 0,583 Informationsgewinn x = 0,991 0,612 = 0,379 Informationsgewinn y = 0,991 0,583 = 0,408
7 CLUSTERVERFAHREN 2. Aufgabe a) Beschreiben Sie an einem Beispiel den betriebswirtschaftlichen Nutzen von Clusterverfahren! b) Erklären Sie den Unterschied zwischen hierarchisierenden und partitionierenden Verfahren! Partitionierendes Clustern: Unterteilung des Merkmalsraumes in eine vorgegeben Anzahl von Bereichen Schrittweise Verbesserung der initialen Zuordnung Grundvoraussetzung für die Verfahren ist, dass alle Attribute numerische Werte besitzen Bekanntestes Verfahren: K-Means Hierarchisches Clustern: Ordnet Objekte innerhalb einer Hierarchie von Clustern an Beginnend mit n Gruppen (agglomerierende Vorgehensweise, Gruppierung) oder mit einer Gruppe mit n Elementen (diversive Vorgehensweise, Aufspaltung) Bekannteste hierarchisch agglomerierende Verfahren: u.a. Single-Linkage, Complete-Linkage, Average-Linkage
8 Clusterverfahren Clusterformen: Cluster haben unterschiedliche Form, Größe und Dichte. Nicht jedes Verfahren kann die gleichen Formen und die gleichen Varianten an Clustern entdecken. So kann z.b. K-Means nur konvexe Cluster entdecken. Dichtebasierte Verfahren sind in der Lage, Cluster unterschiedlichster Formen zu entdecken. Cluster können hierarchisch angeordnet sein.
9 CLUSTERVERFAHREN 2. Aufgabe c) Welche Distanzmaße kennen Sie? Beschreiben und vergleichen Sie diese. Generell weisen niedrige Werte auf hohe Gemeinsamkeiten (=geringe Distanz) hin. Beim Vergleich der Werte sind die Maßeinheiten zu beachten. Eine Obergrenze für die Werte gibt es nicht und die Daten sollten mindestens intervallskaliert (metrisch: =/ ; </>; +/ ) sein. Beispiele für Distanzmaße sind die Manhattan Distanz (zweidimensionalen Raum ist die Distanz definiert als die Summe der rechtwinkligen Abstände) oder die euklidische Distanz (zweidimensionalen Darstellung der direkte Weg zwischen zwei Punkten): Info Namensgebung: Manhattan Metrik (Gittermetrik, City- Block-Metrik): Entfernung, die ein Taxifahrer in Manhattan, New York, zurücklegen müsste, um vom Punkt x nach y zu gelangen. Die Wahl der Distanzmaße beeinflusst die Reihenfolge der Ähnlichkeit der Klassifikationsobjekte, da Distanzen unterschiedlich gewichtet werden. -> Distanzmaße sollten daher nach inhaltlichen Überlegungen ausgewählt werden: bei City-Block-Metrik gehen Unterschiede gleichgewichtig, d.h. linear in die Formel ein bei der (quadrierten) Euklidischen Distanz werden größere Abweichungen stärker gewichtet
10 CLUSTERVERFAHREN 2. Aufgabe c) Welche Rolle spielt in diesem Zusammenhang der Gower-Koeffizient? In der Praxis arbeitet man i.a. mit Datensätzen, in denen sowohl nominale als auch numerische Merkmale auftreten. Ein populäres Maß, welches beide Sorten von Attributen berücksichtigt und gleichzeitig eine Normierung vornimmt, ist der Gower-Koeffizient. n bezeichne die Anzahl der Attribute und Ri die Spannweite (größter Wert kleinster Wert) des i-ten Attributs. Man durchläuft alle n Attribute und bildet den Mittelwert der Werte d(i) für die einzelnen Attribute. Dabei ist d(i) für nominale Attribute 0, wenn das Attribut übereinstimmt und 1, wenn die Ausprägungen verschieden sind. Im Falle numerischer Merkmale bildet man den Betrag der Differenz der beiden Merkmalswerte und teilt durch die Spannweite Ri des jeweiligen Attributs. Damit erhält man einen Wert zwischen 0 und 1. Die Distanz zwischen zwei Datensätzen x und y liegt dann als Mittelwert von Zahlen zwischen 0 und 1 wiederum selbst zwischen 0 und 1. 1 d( x, y) n n i 1 d ( i) ( x, y) mit d ( i) und 1, falls xi yi ( x, y) 0,falls xi yi ( i) xi yi d ( x, y) R i für nominale Merkmale für metrische Merkmale (Ri = Spannweite (größter Wert kleinster Wert) des i-ten Attributs)
11 CLUSTERVERFAHREN 2. Aufgabe d) Übungsaufgabe Versandhandelsunternehmen Verwenden Sie zur Lösung das K-Means-Verfahren und als Ausgangscentroide: C1 = (4,1) und C2 = (3,1). Nutzen Sie die quadrierte Euklidische Distanz als Distanzmaß. Ergebnis: Cluster 1: F1 Cluster 2: F2, F3, F4, F5
12 CLUSTERVERFAHREN 2. Aufgabe e) Übungsaufgabe OPAL (Aufgabenkomplex 4) K-Means-Verfahren, K=5 1) Normalisieren 2) Normieren 3) Initiale Cluster-Centroide und Distanz (euklidische Distanz) zum ersten zuzuordnenden Element bestimmen D C1,6 = D C2,6 = (1 0)² = 1, = 1,5 D C3,6 = 1,90 D C4,6 = 1,52 D C5,6 = 2,24 4) Neuen Cluster mit Element mit kleinsten Abstand, neuer Cendroid (arithmetisches Mittel) 5) bis Abbruchbedingung (hier K=5 Cluster erreicht)
13 CLUSTERVERFAHREN 2. Aufgabe e) Übungsaufgabe OPAL (Aufgabenkomplex 4) Single-Linkage 1) Normalisieren 2) Distanzmatrix bestimmen (Gower Koeffizient) 3) Element mit geringster Distanz bestimmen d 1,2 = d 1,3 = = 0, 06 = 0,60 4) Elemente Clustern und Distanzmatrix neu bestimmen (neuer Wert: Minimum der beiden geclusterten Elemente (Single Link)) 5) bis Abbruchbedingung (hier 5 Cluster erreicht)
14 Fragen?
15 AGENDA TEIL 2 Fallstudie 1 Teil 2 (Entscheidungsbaum) Fallstudie 2 (Clusterverfahren)
16 DM-Software RapidMiner Fallstudie I Teil 2
17 DM-Software RapidMiner erste Schritte Hauptprozess: Data Mining Bsp. Entscheidungsbaum
18 DM-Software RapidMiner erste Schritte Hauptprozess im RapidMiner: Einlesen der Daten, Einteilung in Trainings- und Testdaten, Einbinden des Validierungsblocks Doppelklick auf Validierungs-Knoten um zum nächsten Schritt zu gelangen.
19 DM-Software RapidMiner erste Schritte Modell-Lernen und Testen: Zurück zum Hauptprozess. Lernen des Modells (Trainingsdaten) Anwenden des Modells (Testdaten)
20 DM-Software RapidMiner erste Schritte Hauptprozess im RapidMiner: Einlesen der Daten, Einteilung in Trainings- und Testdaten, Einbinden des Validierungsblocks Ausgaben durch den Validierungsblock: Modell Datensatz Klassifikationsfehler Zum Abschluss: Prozess starten!
21 DM-Software RapidMiner erste Schritte Entscheidungsbaum mit maximaler Tiefe = 20:
22 DM-Software RapidMiner erste Schritte Evaluierung des Modells:
23 DM-Software RapidMiner erste Schritte Entscheidungsbaum mit maximaler Tiefe = 4:
24 DM-Software RapidMiner erste Schritte Evaluierung des Modells:
25 DM-Software RapidMiner Fallstudie 2
26 DM-Software RapidMiner Fallstudie 2 Rita hat einen Datensatz zu Kunden bezüglich Geschlecht, Gewicht und Cholesterin zur Verfügung. Sie weiß, dass es einen Zusammenhang zu Herzerkrankung gibt welchen kann sie nicht einschätzen. Da sie in ihrem Datensatz keine Daten zu tatsächlichen Herzerkrankungen zur Verfügung stehen hat, kommen nur Methoden des unüberwachten Lernens in Frage. Nur aus ihrem Allgemeinwissen schließt sie, dass Kunden mit geringem Gewicht und Cholesterinwert kaum Risiko zu Herzerkrankung besitzen. Wenn sich die restlichen Kunden in Gruppen einteilen ließen, könnte man den Fokusgruppen im weiteren spezifischen Risikoschwellen unterstellen so hofft sie. Die Einteilung nach niedrige und hohe Werte von Gewicht und Cholesterin legt vier Kombinationsmöglichkeiten nahe, d.h. vier Ziel-Cluster. konsistent, vollständig, analysierbar (siehe Meta Data View bzw. Statistics )
27 DM-Software RapidMiner Fallstudie 2 Die Einteilung nach niedrige und hohe Werte von Gewicht und Cholesterin legt vier Kombinationsmöglichkeiten nahe, d.h. vier Ziel-Cluster. (siehe Aufgabe 2) -> K=4 Einteilung in vier Cluster erscheint schlüssig, relativ gleichmäßige Verteilung der Objekte.
28 DM-Software RapidMiner Fallstudie 2 Höchste(s) Durchschnitts-gewicht/- Cholesterinwerte in Cluster 0 -> Mit der Heuristik je höher die Cholesterinwerte bzw. Gewichtswerte, desto höher das Herzerkrankungsrisiko stellt sich Cluster 0 als das gefährdetste Segment heraus.
29 DM-Software RapidMiner Fallstudie 2 Cluster 0, siehe 4.c Oder, damit der Add Filters -Button erscheint: Umstellen auf Custom-Filters
Clustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
Splitting. Impurity. c 1. c 2. c 3. c 4
Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
Seminar zum Thema Künstliche Intelligenz: Clusteranalyse
Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................
Statistische Grundlagen I
Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.
Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)
Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche
Entscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert
Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht
Hierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8
.2 Einige statistische Maßzahlen.2. Die Schusser in zwei Familien Die vier Kinder der Familie Huber haben x = 5, x 2 = 7, x 3 = 9, x 4 = Schusser. Die vier Kinder der Familie Maier haben y = 7, y 2 = 7,
Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient
Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Georg Bol [email protected] Markus Höchstötter [email protected] Agenda 1. Untersuchung der Abhängigkeit 2.
Klassifikation im Bereich Musik
Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................
Ähnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0.
Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: geringe Variabilität mittlere Variabilität
Klassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH
Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische
Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten
Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten Georg Bol [email protected] Markus Höchstötter [email protected] Agenda 1. Einleitung 2. Lorenzkurve
Vereinfachte Clusteranalyse mit Excel
Autor: Helmut Schels, Stadt Ingolstadt, Stadtplanungsamt Vereinfachte Clusteranalyse mit Excel Clusteranalyse mit Excel nach einer der hierarchischen Methoden (Single-Linkage) Kurzbeschreibung Hintergrund
TEIL 13: DIE EINFACHE LINEARE REGRESSION
TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
4 Clusteranalyse 4.1 Einführung
Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte
Entscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
Deskriptive Statistik
Modul G.1 WS 07/08: Statistik 8.11.2006 1 Deskriptive Statistik Unter deskriptiver Statistik versteht man eine Gruppe statistischer Methoden zur Beschreibung von Daten anhand statistischer Kennwerte, Graphiken,
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
Data Mining (ehem. Entscheidungsunterstützungssysteme)
Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE
Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten)
Was bisher geschah Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Wissensrepräsentation und -verarbeitung in klassischer Aussagenlogik: Entscheidungstabellen,
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein
Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable
Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist
4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in
Wahrscheinlichkeitsverteilungen
Wahrscheinlichkeitsverteilungen 1. Binomialverteilung 1.1 Abzählverfahren 1.2 Urnenmodell Ziehen mit Zurücklegen, Formel von Bernoulli 1.3 Berechnung von Werten 1.4 Erwartungswert und Standardabweichung
Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
Analytische Statistik II
Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben.
Terme, Rechengesetze, Gleichungen
Terme, Rechengesetze, Gleichungen Ein Junge kauft sich eine CD zu 15 und eine DVD zu 23. Er bezahlt mit einem 50 - Schein. Wie viel erhält er zurück? Schüler notieren mögliche Rechenwege: (1) 15 + 23 =
Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154
Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch
Maschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv
Methoden der Klassifikation und ihre mathematischen Grundlagen
Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung
4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity
fuzzy-entscheidungsbäume
fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian
Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar
Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger
Knowledge Discovery. Lösungsblatt 1
Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: [email protected] Tel.: ++49 561 804-6252 Dr.
Lineare Algebra II 5. Übungsblatt
Lineare Algebra II Übungsblatt Fachbereich Mathematik SS Prof Dr Kollross / Mai Susanne Kürsten Tristan Alex Gruppenübung Aufgabe G (Algebraisch abgeschlossener Körper) Ein Körper heißt algebraisch abgeschlossen,
Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014
Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?
Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester
Messung von Rendite und Risiko Finanzwirtschaft I 5. Semester 1 Messung von Renditen Ergebnis der Anwendung der Internen Zinsfuß- Methode ist die Rentabilität des Projekts. Beispiel: A0-100.000 ZÜ1 54.000
a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52
2 Häufigkeitsverteilungen 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 =
Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Binomialverteilung und Bernoulli- Experiment Das komplette Material finden Sie hier: Download bei School-Scout.de TOSSNET Der persönliche
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
TEIL 13: DIE LINEARE REGRESSION
TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen
Kapitel 1 Beschreibende Statistik
Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)
Magische Quadrate. Mögliche Aufgabenstellungen: Überprüfen, ob ein vorgegebenes Zahlenquadrat ein magisches Quadrat ist.
. Was sind magische Quadrate? Magische Quadrate Die Zahlen bis lassen sich auf vielerlei Arten so in einem x Quadrat anordnen, dass - jede der vier Zeilensummen, - jede der vier Spaltensummen - und auch
Inferenzstatistik (=schließende Statistik)
Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die
Basistext Funktionen. Eine Funktion f ordnet jedem Element x aus einer Definitionsmenge D f genau ein Wert y zu.
Basistext Funktionen Definition Eine Funktion f ordnet jedem Element x aus einer Definitionsmenge D f genau ein Wert y zu. Man schreibt: f: x -> y mit y = f(x) Die Wertemenge einer Funktion f besteht aus
Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
Moderne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume
1. Übungsaufgabe zu Exponentialfunktionen
1. Übungsaufgabe zu Exponentialfunktionen Die folgende Funktion y = f(t) = 8 t e stellt die Konzentration eines Stoffes in einer Flüssigkeit dar. y ist die Konzentration des Stoffes in mg / Liter. t ist
Vorlesung. Machine Learning - Entscheidungsbäume
Vorlesung Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume http://de.wikipedia.org/wiki/datei:deu_tutorial_-_hochladen_von_bildern_neu%2bcommons.svg http://www.rulequest.com/personal/
Entscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
5 Kontinuierliches Wachstum
5 Kontinuierliches Wachstum Kontinuierlich meßbare Größe Wir betrachten nun eine Größe a, die man kontinuierlich messen kann. Den Wert von a zum Zeitpunkt t schreiben wir nun als a(t). Wir können jedem
Entscheidungsbaumverfahren
Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch
... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
Musterlösung zur Übungsklausur Statistik
Musterlösung zur Übungsklausur Statistik WMS4A Oettinger 6/205 Aufgabe (a) Falsch: der Modus ist die am häufigsten auftretende Merkmalsausprägung in einer Stichprobe. (b) Richtig: ein ordinales Merkmal
Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.
Corinne Schenka Vorkurs Mathematik WiSe 2012/13. ausmultiplizieren. Anwenden von Potenzgesetzen, Wurzelgesetzen, Logarithmengesetzen
3. Algebraische Grundlagen 3.1. Termumformungen Begriff Term: mathematischer Ausdruck, der aus Zahlen, Variablen, Rechenzeichen oder Klammern besteht Termumformungen dienen der Vereinfachung von komplexen
Luxemburg. Norwegen. Schweiz. Island. Zypern. Niederlande. Österreich. Schweden. Deutschland. Dänemark. Frankreich. Irland.
Einkommen (Teil 1) Einkommen (Teil 1) Medianes Nettoäquivalenzeinkommen* in in Euro Euro und und Kaufkraftstandards (KKS), (KKS), Index Index KKS KKS (Deutschland = 100), = 100), ausgewählte europäische
Brückenkurs Statistik für Wirtschaftswissenschaften
Peter von der Lippe Brückenkurs tatistik für Wirtschaftswissenschaften Lösungen UVK Verlagsgesellschaft mbh Konstanz mit UVK/Lucius München Brückenkurs tatistik für Wirtschaftswissenschaften: Lösungen
Mittelwertvergleiche, Teil II: Varianzanalyse
FB 1 W. Ludwig-Mayerhofer Statistik II 1 Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil II: FB 1 W. Ludwig-Mayerhofer Statistik II 2 : Wichtigste Eigenschaften Anwendbar auch bei mehr als
Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann.
Expertengruppenarbeit Sonnenentfernung Das ist unsere Aufgabe: Wir sollen erarbeiten, wie man mit Hilfe der Mondentfernung die Entfernung zur Sonne bestimmen kann. Konkret ist Folgendes zu tun: Lesen Sie
Statistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
Data Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
Seminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
Lage- und Streuungsparameter
Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch
Effizienz von Algorithmen
Effizienz von Algorithmen Letzte Bearbeitung: Jan 211 Ein wichtiger Aspekt bei Algorithmen sind seine "Kosten". Wir wollen uns hier ausschließlich mit der Laufzeit des gewählten Algorithmus beschäftigen.
BÜNDELN VON MUSTERN. Grundlagen der linearen Algebra im Anhang A. Kapitel 1.
Neuronale Netze im Klartext ISBN 3-8273-7071-X 3 BÜNDELN VON MUSTERN Lernziele Einführung in das überwachte Lernen. Sie sollten in der Lage sein: Unüberwachtes Lernen und das Prinzip der Bündelung von
Pflichtteilaufgaben zu Stochastik (Pfadregeln, Erwartungswert, Binomialverteilung) Baden-Württemberg
Pflichtteilaufgaben zu Stochastik (Pfadregeln, Erwartungswert, Binomialverteilung) Baden-Württemberg Hilfsmittel: keine allgemeinbildende Gymnasien Alexander Schwarz www.mathe-aufgaben.com August 05 Übungsaufgaben:
Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
Statistische Methoden
Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:
Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,
Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Was sollen Sie heute lernen? 2 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter
Kompetenzcheck. Mathematik (AHS) Oktober 2013. Lösungsheft
Kompetenzcheck Mathematik (AH) Oktober 2013 Lösungsheft Lösung zu Aufgabe 1 Rationale Zahlen 1 2 3,5 16 Ein Punkt ist nur dann zu geben, wenn alle Kreuze richtig gesetzt sind. 2 Lösung zu Aufgabe 2 Rechenoperationen
4 Induktion von Regeln
4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung
2 Rationale und reelle Zahlen
2 reelle Es gibt Mathematik mit Grenzwert (Analysis) und Mathematik ohne Grenzwert (z.b Algebra). Grenzwerte existieren sicher nur dann, wenn der Zahlbereich vollständig ist, also keine Lücken aufweist
Kapitel VII - Konzentration von Merkmalswerten
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VII - Konzentration von Merkmalswerten Deskriptive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh
