Frequent Itemset Mining + Association Rule Mining
|
|
- Hedwig Knopp
- vor 7 Jahren
- Abrufe
Transkript
1 Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16
2 Frequent Itemset Mining (FIM)
3 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen, computerbasierten Data Mining betrachtet werden und wird deshalb hier vorgestellt. Aus algorithmischer Sicht handelt es sich um ein nichtmathematisches Verfahren, nämlich der schnellen Suche in einer Datenbank (Datenmenge) nach häufig vorkommenden Samples. Aus datenanalytischer Sicht lassen sich die erhaltenen Ergebnisse als Wahrscheinlichkeiten für das Vorkommen bestimmter Samples deuten
4 Diskussion eines Beispiels Situation: An neun amerikanischen Schulen wurden Schüler der Klassen 4 bis 6 (Alter 7 bis 13 Jahre) danach befragt, wie wichtig ihnen Schulnoten, Beliebtheit und Sport als persönliche Ziele sind. Weiter sollten die Schüler angeben wie wichtig Sportlichkeit, Aussehen, Schulnoten und Geld ihrer Meinung nach für die Beliebtheit eines Schülers sind. Datenmenge: 478 Datensätze mit 11 Merkmalen Merkmale: Geschlecht, Klassenstufe (4-6), Alter (7-13), Hautfarbe (weiß, andere), Lage des Wohnorts (Stadt, Vorstadt, ländlich), Name der Schule, wichtigstes Ziel (siehe oben), Wichtigkeit von Schulnoten (1-4), Wichtigkeit von Sport (1-4), Wichtigkeit von Aussehen (1-4), Wichtigkeit von Geld (1-4). Anmerkung: Der Datensatz stammt aus einer Untersuchung zur Rolle des Sports in der sozialen Entwicklung von Kindern aus dem Jahr
5 Diskussion eines Beispiels Mögliche Zielsetzung einer Datenanalyse: Entdeckung von Hinweisen auf einen Zusammenhang zwischen dem Geschlecht, dem Wohnumfeld und den Zielen von Kindern in der Altersklasse 7-13 Jahre. Quantifizierung der Stärke dieser Hinweise, falls vorhanden. Ansatz / Idee: Benutze die Häufigkeit des Auftretens bestimmter Kombinationen von Merkmalsausprägungen als Hinweis auf einen in der Wirklichkeit vorhandenen Zusammenhang und dessen Stärke. Da die wahre Häufigkeit unbekannt ist, schätzt man diese anhand der vorliegenden Daten. Annahme dabei: die erhobenen Daten sind repräsentativ, das heißt typisch, für amerikanische Kinder der betrachteten Altersklasse
6 Diskussion eines Beispiels Wichtige Anmerkung: Man kann nicht erwarten, dass es strikte deterministische Zusammenhänge zwischen dem Geschlecht, dem Wohnumfeld und den Zielen von Kindern gibt, zum Beispiel von der Art: Mädchen, die in der Stadt wohnen, haben stets Beliebtheit als wichtigstes persönliches Ziel. Die gesuchten Zusammenhänge sind probabilistischer Art: Mädchen, die in der Stadt wohnen, haben mit hoher Wahrscheinlichkeit (>75%) Beliebtheit als wichtigstes persönliches Ziel. Wahrscheinlichkeiten kommen ins Spiel, weil für die Ausprägung persönlicher Ziele viele, auch zufällige Einflüsse wie zum Beispiel Vorbilder (Freunde/Freundinnen, Eltern, Personen aus der Literatur oder dem Fernsehen) eine Rolle spielen. Der Zufall ist untrennbarer Bestandteil der gesuchten Zusammenhänge
7 Diskussion eines Beispiels Zum Vorgehen: Für die Fragestellung interessant sind die Merkmale Geschlecht, wichtigstes Ziel und Wohnortlage. Betrachte also nur diese Merkmale in der Analyse. Bestimme die Häufigkeiten der Ausprägungskombinationen dieser drei Merkmale. Betrachte die»häufig«vorkommenden Ausprägungskombinationen näher und interpretiere sie. In RapidMiner können die Häufigkeiten effizient mit dem Operator FP-Growth bestimmt werden, den man unter Modeling\Association and Itemset Mining findet
8 Diskussion eines Beispiels Zum Vorgehen: Was bedeutet»häufig«? Es gibt insgesamt mögliche Ausprägungskombinationen der Merkmale Geschlecht, Wohnort und Ziel. Bei einer rein zufälligen Verteilung der Ausprägungen mit gleicher Wahrscheinlichkeit für das Auftreten jeder Kombination kommt jede Kombination mit ungefähr der Häufigkeit ,6% vor.»häufig«sollte also sicher bedeuten: deutlich höher als 5,6%
9 Diskussion eines Beispiels Zum Vorgehen: Während Geschlecht und Wohnortlage annähernd gleichverteilte Ausprägungen aufweisen, gilt dies für die Ausprägungen des Merkmals Ziel nicht: Noten: 51,7%, Beliebtheit: 29,5%, Sport: 18,8%. Es ist daher in Bezug auf die Fragestellung günstiger die Zielausprägungen jeweils separat zu betrachten: Man bestimmt bei fester Zielausprägung die Häufigkeiten der Ausprägungskombinationen von Geschlecht und Wohnortlage. Es gibt 6 Ausprägungskombinationen von Geschlecht und Wohnortlage, womit als»häufig«nun Werte deutlich oberhalb von 16% gelten. Die Häufigkeiten werden jetzt in Bezug auf die Anzahl Datensätze berechnet, in denen das Merkmal wichtigstes Ziel den entsprechenden Wert besitzt
10 Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Mädchen Stadt Noten 23,5 % Junge Vorstadt Noten 20,6 % Junge Stadt Noten 18,2 % Mädchen Vorstadt Noten 14,6 % Mädchen ländlich Noten 14,6 % Junge ländlich Noten 8,5 %
11 Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Mädchen Stadt Beliebtheit 27,0 % Mädchen ländlich Beliebtheit 22,0 % Mädchen Vorstadt Beliebtheit 15,6 % Junge Vorstadt Beliebtheit 14,2 % Junge ländlich Beliebtheit 13,5 % Junge Stadt Beliebtheit 7,8 %
12 Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Junge ländlich Sport 28,9 % Junge Vorstadt Sport 20,0 % Mädchen ländlich Sport 17,8 % Junge Stadt Sport 17,8 % Mädchen Stadt Sport 11,1 % Mädchen Vorstadt Sport 4,4 %
13 Diskussion eines Beispiels Ergebnisse: Schulnoten sind in der betrachteten Altersklasse ohne Berücksichtigung von Geschlecht und Wohnortlage das dominante Ziel. Schulnoten spielen für Mädchen im städtischen Bereich eine deutlich höhere Rolle als im vorstädtischen und ländlichen Bereich. Bei Jungen sind in Bezug auf Schulnoten städtischer und vorstädtischer deutlicher vom ländlichen Bereich getrennt. Das Ziel Beliebtheit ist deutlich geschlechtsspezifisch: Mädchen im ländlichen und städtischen Bereich betonen dieses Ziel stärker als Jungen, besonders auffällig ist der Unterschied zu Jungen im städtischen Bereich. Beim Ziel Sport beobachtet man dieselbe Situation wie bei Beliebtheit, aber mit vertauschten Geschlechterrollen
14 Allgemeine Darstellung der Methode Gegeben ist eine Datenmenge X mit nominalen regulären Merkmalen,,, deren Ausprägungen in den endlichen Mengen,, liegen. Von Interesse für die Analyse sind die Merkmale mit den Nummern,,. Gesucht ist für jede Kombination (,, ) von Ausprägungen der Merkmale,,,, die Häufigkeit h(,, ) (,,, ). Große Häufigkeiten h(,, ) werden als Hinweis auf einen entsprechenden Zusammenhang zwischen den beteiligten Merkmalen gedeutet
15 Allgemeine Darstellung der Methode Theoretisch kann es in X bis zu der interessierenden Ausprägungen geben. Ein einfaches Abzählen der Datensätze ist daher bei großen Datenmengen nicht effektiv. Zur effektiven Lösung des Problems gibt es verschiedene Algorithmen: Apriori, Eklat, FP-Growth. Die Algorithmen basieren nicht auf besonderen mathematischen Methoden, sondern gehören in den Bereich der angewandten Informatik. Sie werden in dieser Vorlesung daher nicht behandelt
16 Steckbrief: Frequent Itemset Mining (FIM) Ziel Entdeckung von Abhängigkeiten zwischen Merkmalen durch die Bestimmung von häufig auftretenden Kombinationen von Merkmalsausprägungen. Datentyp Prinzipiell: Nominale Daten. Es können andere Merkmalstypen analysiert werden, sofern die Anzahl verschiedener Ausprägungen nicht zu groß ist, und das Ignorieren einer ev. vorhandenen Anordnung bzw. der Zahleigenschaft keine großen Nachteile mit sich bringt. Mathematische Grundlage Interpretation von Häufigkeiten als genäherte Wahrscheinlichkeiten
17 Association Rule Mining (ARM)
18 Logische Abhängigkeiten von Merkmalen Mit Hilfe von FIM kann man zwar Hinweise auf Abhängigkeiten zwischen bestimmten Merkmalen erhalten, aber zunächst nicht auf die Art der Abhängigkeit. Eine besonders einfache Art von Zusammenhängen sind logische Implikationen:»Wenn ein Mädchen im städtischen Umfeld wohnt, dann sind Schulnoten sein wichtigstes persönliches Ziel.«oder formal: Geschlecht = Mädchen UND Wohnortlage = Stadt IMPLIZIERT Ziel = Schulnoten. Wiederum sind solche Regeln probabilistisch nicht deterministisch gemeint. Wie kann man solche Regeln ermitteln, sowie ihre»stärke«?
19 Diskussion eines Beispiels Das (probabilistische) Vorliegen der logischen Implikation: Geschlecht = Mädchen UND Wohnortlage = Stadt IMPLIZIERT wichtigstes Ziel = Schulnoten. würde sich in einer repräsentativen Datenmenge X wie folgt äußern: 1. In der Teilmenge Y aller Datensätze in X der Form (Geschlecht = Mädchen, Wohnortlage = Stadt, Ziel = beliebig) tritt die Ausprägung Ziel = Schulnoten häufig auf. Diese Eigenschaft kann auch dann vorliegen, wenn die Teilmenge Y klein im Vergleich zu X ist, zum Beispiel nur aus zwei Elementen besteht. In diesem Fall hätte man wenig Vertrauen in die Gültigkeit der Implikation. Man fordert daher zusätzlich: 2. Die Teilmenge Y ist»hinreichend groß«
20 Allgemeine Darstellung der Methode Gegeben ist eine Datenmenge X mit nominalen regulären Merkmalen,,, deren Ausprägungen in den endlichen Mengen,, liegen. Von Interesse für die Analyse sind die Merkmale mit den Nummern,, und j,,. Gesucht sind Häufigkeitshinweise auf logische Zusammenhänge der Form: ( = UND UND = ) IMPLIZIERT ( = UND UND = ) (R) Einen solche Zusammenhang nennt man eine Assoziationsregel (englisch: Association Rule). Es gibt auch Assoziationsregeln mit komplexeren Bedingungen in der Prämisse oder der Folgerung
21 Allgemeine Darstellung der Methode Zum Bewerten einer gegebenen Assoziationsregel (R) bestimmt man zunächst ihren Support: Support(R) (,,, ). Ist der Support»groß genug«, so bestimmt man die Konfidenz: Konfidenz(R) (,,, ), Was»groß genug«bedeutet und welche Konfidenz mindestens vorliegen sollte, muss der Anwender entscheiden. Achtung: FIM und ARM nutzen a priori keine statistischen Mittel um etwa Vertrauensintervalle für eine Regel (R) anzugeben
22 Steckbrief: Association Rule Mining (ARM) Ziel Entdeckung von logischen Abhängigkeiten zwischen Merkmalskombinationen durch die Bestimmung von häufig auftretenden Kombinationen von Merkmalsausprägungen. Datentyp Prinzipiell: Nominale Daten. Es können andere Merkmalstypen analysiert werden, sofern die Anzahl verschiedener Ausprägungen nicht zu groß ist, und das Ignorieren einer ev. vorhandenen Anordnung bzw. der Zahleigenschaft keine großen Nachteile mit sich bringt. Mathematische Grundlage Interpretation von Häufigkeiten als genäherte Wahrscheinlichkeiten
23 Fragen
Maschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrData Mining: Einige Grundlagen aus der Stochastik
Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener
MehrErmittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung
Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.
MehrFortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
MehrWahrscheinlichkeitsrechnung und Stochastik
Wahrscheinlichkeitsrechnung und Stochastik 2-stündige Vorlesung für den Bachelor-Studiengang Angewandte Informatik Vorläufige Version Gerhard Freiling und Hans-Bernd Knoop Inhalt Inhalt..........................................................................
MehrKapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit
Kapitel 17 Unabhängigkeit und Homogenität 17.1 Unabhängigkeit Im Rahmen der Wahrscheinlichkeitsrechnung ist das Konzept der Unabhängigkeit von zentraler Bedeutung. Die Ereignisse A und B sind genau dann
MehrKapitel 2. Mittelwerte
Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren
MehrSchließende Statistik
Schließende Statistik [statistical inference] Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.
MehrSBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1
SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf SBP Mathe Aufbaukurs 1 # 0 Antwort Diese Lernkarten sind sorgfältig erstellt worden, erheben aber weder Anspruch auf Richtigkeit noch auf Vollständigkeit. Das
Mehr6: Diskrete Wahrscheinlichkeit
Stefan Lucks Diskrete Strukturen (WS 2009/10) 219 6: Diskrete Wahrscheinlichkeit 6: Diskrete Wahrscheinlichkeit Stefan Lucks Diskrete Strukturen (WS 2009/10) 220 Wahrscheinlichkeitsrechnung Eines der wichtigsten
Mehr7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012
7. Grenzwertsätze Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Mittelwerte von Zufallsvariablen Wir betrachten die arithmetischen Mittelwerte X n = 1 n (X 1 + X 2 + + X n ) von unabhängigen
MehrApriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
MehrStandardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
Mehr6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
Mehr1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6
Inhaltsverzeichnis 1 Vorbemerkungen 1 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2 3 Wahrscheinlichkeitsaxiome 4 4 Laplace-Experimente 6 5 Hilfsmittel aus der Kombinatorik 7 1 Vorbemerkungen
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
MehrFormale Logik. PD Dr. Markus Junker Abteilung für Mathematische Logik Universität Freiburg. Wintersemester 16/17 Sitzung vom 9.
Formale Logik PD Dr. Markus Junker Abteilung für Mathematische Logik Universität Freiburg Wintersemester 16/17 Sitzung vom 9. November 2016 Weitere Begriffe Eine Zuweisung von Wahrheitswerten W bzw. F
MehrTU7 Aussagenlogik II und Prädikatenlogik
TU7 Aussagenlogik II und Prädikatenlogik Daniela Andrade daniela.andrade@tum.de 5.12.2016 1 / 32 Kleine Anmerkung Meine Folien basieren auf den DS Trainer von Carlos Camino, den ihr auf www.carlos-camino.de/ds
Mehr3. Lektion: Deskriptive Statistik
Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
Mehrhtw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein
MehrZufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen
Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen Wichtige Tatsachen und Formeln zur Vorlesung Mathematische Grundlagen für das Physikstudium 3 Franz Embacher http://homepage.univie.ac.at/franz.embacher/
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrAuswahlverfahren. Zufallsauswahl Bewusste Auswahl Willkürliche Auswahl. Dipl.-Päd. Ivonne Bemerburg
Auswahlverfahren Zufallsauswahl Bewusste Auswahl Willkürliche Auswahl Blockseminar: Methoden quantitativer Grundgesamtheit und Stichprobe Die Festlegung einer Menge von Objekten, für die die Aussagen der
MehrInduktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
MehrDie ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.
.3. Stochastik Grundlagen Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. Die RELATIVE HÄUFIGKEIT einer Merkmalsausprägung gibt an mit welchem Anteil
Mehr5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
Mehr1 Grundprinzipien statistischer Schlußweisen
Grundprinzipien statistischer Schlußweisen - - Grundprinzipien statistischer Schlußweisen Für die Analyse zufallsbehafteter Eingabegrößen und Leistungsparameter in diskreten Systemen durch Computersimulation
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrDidaktik der Stochastik (Leitidee: Daten und Zufall)
Didaktik der Geometrie und Stochastik WS 09 / 10 15. 1. 2010 Didaktik der Stochastik (Leitidee: Daten und Zufall) 7. Beschreibende Statistik 7.1 Zum Begriff Stochastik : Seit den Fünfziger Jahren werden
MehrTabelle 1.5: Relative Wichtigkeit von Ausprägungen.
4 1 Einleitung nichtern wichtig sind. Zu diesem Zweck werden die Differenzen zwischen der bevorzugten Ausprägung eines Merkmals, also die mit dem höchsten Teilnutzenwert, und der Ausprägung mit dem geringsten
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 25. Januar 2013 1 Der χ 2 -Anpassungstest 2 Exakter Test nach Fisher Mendelsche Erbregeln als Beispiel für mehr
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrEinführung in die Wahrscheinlichkeitsrechnung
Einführung in die Wahrscheinlichkeitsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Wahrscheinlichkeitsrechnung
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler
Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler Noémie Becker & Dirk Metzler 15. April 2016 Inhaltsverzeichnis 1 Der Standardfehler 1 1.1 Ein Versuch............................................
MehrInhaltsbereich Wahrscheinlichkeit und Statistik
Inhaltsbereich Wahrscheinlichkeit und Statistik AG Mathematik, Sankt Pölten 11.11.2009 Markus Binder Modell für die zentrale srp im Schulversuch Teil I: Aufgaben mit 15-25 Items Teil II: 6-8 Aufgaben,
MehrMaschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
MehrDr. H. Grunert Einführung in die Wahrscheinlichkeitsrechnung Vorlesungscharts. Vorlesung 1. Grundbegriffe der Wahrscheinlichkeitsrechnung
Vorlesungscharts Vorlesung 1 Grundbegriffe der Wahrscheinlichkeitsrechnung Zufallsvorgänge und Zufallsereignisse Definitionen der Wahrscheinlichkeit Seite 1 von 11 Chart 1: Vorgänge deterministisch zufällig
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrMining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
MehrInformationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -
Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrStatistics, Data Analysis, and Simulation SS 2017
Mainz, 8. Juni 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrKapitel 10. Stichproben
Kapitel 10 n In der deskriptiven Statistik werden die Charakteristika eines Datensatzes durch Grafiken verdeutlicht und durch Maßzahlen zusammengefasst. In der Regel ist man aber nicht nur an der Verteilung
Mehr5 Assoziationsmessung in Kontingenztafeln
5 Assoziationsmessung in Kontingenztafeln 51 Multivariate Merkmale 51 Multivariate Merkmale Gerade in der Soziologie ist die Analyse eindimensionaler Merkmale nur der allererste Schritt zur Beschreibung
MehrEs werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.
R. Brinkmann http://brinkmann-du.de Seite 08..2009 Von der relativen Häufigkeit zur Wahrscheinlichkeit Es werden 20 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 20 Schülern
Mehr3 Vom Zählen zur Induktion
7 3 Vom Zählen zur Induktion 3.1 Natürliche Zahlen und Induktions-Prinzip Seit unserer Kindheit kennen wir die Zahlen 1,, 3, 4, usw. Diese Zahlen gebrauchen wir zum Zählen, und sie sind uns so vertraut,
MehrDatenanalyse Klausur SS 2014 (nicht wortwörtlich) Lösung (aus einer Nachbesprechung mit Elsenbeer)
1. Ist das folgende Argument gültig? Datenanalyse Klausur SS 2014 (nicht wortwörtlich) Lösung (aus einer Nachbesprechung mit Elsenbeer) Wenn minderjährige Mörder für ihr Vergehen genauso verantwortlich
MehrStatistische Datenanalyse
Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
Mehr4. Grundzüge der Wahrscheinlichkeitsrechnung
4. Grundzüge der Wahrscheinlichkeitsrechnung Dr. Antje Kiesel Institut für angewandte Mathematik WS 2010/2011 In der beschreibenden Statistik haben wir verschiedene Kennzahlen (Statistiken) für Stichproben
MehrKlausur vom
UNIVERSITÄT KOBLENZ LANDAU INSTITUT FÜR MATHEMATIK Dr. Dominik Faas Stochastik Wintersemester 00/0 Klausur vom 09.06.0 Aufgabe (++4=9 Punkte) Bei einer Umfrage wurden n Personen befragt, an wievielen Tagen
MehrStatistik II. Statistik II, WS 2000, Seite 1 von 6
Statistik II, WS 2000, Seite 1 von 6 Statistik II Hinweise zur Bearbeitung Hilfsmittel: - Taschenrechner (ohne Datenbank oder die Möglichkeit diesen zu programmieren) - Formelsammlung im Umfang von einer
MehrStreaming Data: Das Modell
Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten
MehrForschungsstatistik I
Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
Mehr1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n
3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:
MehrHM I Tutorium 1. Lucas Kunz. 27. Oktober 2016
HM I Tutorium 1 Lucas Kunz 27. Oktober 2016 Inhaltsverzeichnis 1 Theorie 2 1.1 Logische Verknüpfungen............................ 2 1.2 Quantoren.................................... 3 1.3 Mengen und ihre
MehrKapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen
Kapitel ML:IV IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-1 Statistical Learning c STEIN 2005-2011 Definition 1 (Zufallsexperiment,
MehrDeskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1
1 Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 1 (a) Es sollen die mathematischen Vorkenntnisse der Studenten, die die Vorlesung Statistik I für Statistiker,
MehrVorkurs Mathematik 2016
Vorkurs Mathematik 2016 WWU Münster, Fachbereich Mathematik und Informatik PD Dr. K. Halupczok Skript VK1 vom 8.9.2016 VK1: Logik Die Kunst des Schlussfolgerns Denition 1: Eine Aussage ist ein sprachliches
MehrVS PLUS
VS PLUS Zusatzinformationen zu Medien des VS Verlags Statistik II Inferenzstatistik 2010 Übungsaufgaben und Lösungen - Inferenzstatistik 1 [Übungsaufgaben und Lösungenn - Inferenzstatistik 1] ÜBUNGSAUFGABEN
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrAufgaben zu Kapitel 8
Aufgaben zu Kapitel 8 Aufgabe 1 a) Berechnen Sie einen U-Test für das in Kapitel 8.1 besprochene Beispiel mit verbundenen n. Die entsprechende Testvariable punkte2 finden Sie im Datensatz Rangdaten.sav.
MehrKapitel VIII - Mehrdimensionale Merkmale
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VIII - Mehrdimensionale Merkmale Deskriptive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh
MehrWahrscheinlichkeiten
Wahrscheinlichkeiten Bestimmung der Wahrscheinlichkeit Bei einem Zufallsexperiment kann man nicht voraussagen, welches Ereignis eintritt, aber manche Ereignisse treten naturgemäß mit einer größeren Wahrscheinlichkeit
MehrÜbungen zur Wahrscheinlichkeitstheorie und Statistik
Übungen zur Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank Blatt 0 vom 16. April 2012 Aufgabe 1 (Wahrscheinlichkeitsräume). Welche der folgenden Aussagen sind wahr? Begründen Sie jeweils
MehrKonkretes Durchführen einer Inferenzstatistik
Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf
MehrKlausur über den Stoff der Vorlesung Grundlagen der Informatik II (90 Minuten)
Institut für Angewandte Informatik und Formale Beschreibungsverfahren 15.02.2010 Klausur über den Stoff der Vorlesung Grundlagen der Informatik II (90 Minuten) Name: Vorname: Matr.-Nr.: Semester: (WS 2009/10)
MehrProbleme und Möglichkeiten der Behandlung der bedingten Wahrscheinlichkeit
Hans-Dieter Sill, Universität Rostock Probleme und Möglichkeiten der Behandlung der bedingten Wahrscheinlichkeit 1. Der Begriff der bedingte Wahrscheinlichkeit in Planungsdokumenten 2. Eine Prozessbetrachtung
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrDatenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung
Datenstrukturen Datenstrukturen Querschnitt Panel Zeitreihe 2 Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt
MehrItems Einstellungen sportliches Engagement der Freundinnen und Freunde Frauen keinen Wenige / niemand meiner Freundinnen und Freunde sind der Meinung,
9 Ergebnisse: Soziales Umfeld Freundinnen und Freunde 117 9 Freundinnen und Freunde Im folgenden Kapitel wird herausgearbeitet, wie die Schülerinnen und Studentinnen die Einstellungen und das Sportverhalten
MehrFormale Sprachen und Automaten
Formale Sprachen und Automaten Kapitel 1: Grundlagen Vorlesung an der DHBW Karlsruhe Thomas Worsch Karlsruher Institut für Technologie, Fakultät für Informatik Wintersemester 2012 Ziel Einführung der wichtigsten
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrGrundlagen der Biometrie in Agrarwissenschaften / Ernährungswissenschaften
Grundlagen der Biometrie in Agrarwissenschaften / Ernährungswissenschaften Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Grundlagen der Biometrie, WS 2011/12 Vorlesung: Dienstag 8.15-9.45,
MehrKryptoanalyse: Der Friedman-Test (und seine Anwendung)
Kryptoanalyse: Der Friedman-Test (und seine Anwendung) 1925 Analyseverfahren von William Friedman Fragestellung: Mit welcher Wahrscheinlichkeit sind zwei willkürlich aus einem Text herausgegriffene Buchstaben
Mehrentschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.
Bsp 1) Die Wahrscheinlichkeit dafür, dass eine Glühbirne länger als 200 Stunden brennt, beträgt 0,2. Wie wahrscheinlich ist es, dass von 10 Glühbirnen mindestens eine länger als 200 Stunden brennt? (Berechnen
MehrKinga Szűcs
Kinga Szűcs 25.10.2011 Die Schülerinnen und Schüler werten graphische Darstellungen und Tabellen von statistischen Erhebungen aus, planen statistische Erhebungen, sammeln systematisch Daten, erfassen sie
MehrAlgorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3
MehrKapitel 1. Aussagenlogik
Kapitel 1 Aussagenlogik Einführung Mathematische Logik (WS 2012/13) Kapitel 1: Aussagenlogik 1/17 Übersicht Teil I: Syntax und Semantik der Aussagenlogik (1.0) Junktoren und Wahrheitsfunktionen (1.1) Syntax
MehrKapitel 1.0. Aussagenlogik: Einführung. Mathematische Logik (WS 2011/12) Kapitel 1.0: Aussagenlogik: Einführung 1/ 1
Kapitel 1.0 Aussagenlogik: Einführung Mathematische Logik (WS 2011/12) Kapitel 1.0: Aussagenlogik: Einführung 1/ 1 Ziele der Aussagenlogik In der Aussagenlogik analysiert man die Wahrheitswerte zusammengesetzter
MehrTU8 Beweismethoden. Daniela Andrade
TU8 Beweismethoden Daniela Andrade daniela.andrade@tum.de 12.12.2016 1 / 21 Kleine Anmerkung Meine Folien basieren auf den DS Trainer von Carlos Camino, den ihr auf www.carlos-camino.de/ds findet ;) 2
MehrVorkurs: Mathematik für Informatiker
Vorkurs: Mathematik für Informatiker Teil 3 Wintersemester 2016/17 Steven Köhler mathe@stevenkoehler.de mathe.stevenkoehler.de 2 c 2016 Steven Köhler Wintersemester 2016/17 Inhaltsverzeichnis Teil 1 Teil
MehrMotivation und Geschichte. Geschichte der Logik Logik und Informatik
Motivation und Geschichte Geschichte der Logik Logik und Informatik Logik für Informatiker, M. Lange, IFI/LMU: Motivation und Geschichte Geschichte der Logik 12 Aufgaben der Logik Logik (aus Griechischem)
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilung diskreter Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrMathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007
Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte
MehrAnalyse von Kontingenztafeln
Analyse von Kontingenztafeln Mit Hilfe von Kontingenztafeln (Kreuztabellen) kann die Abhängigkeit bzw. die Inhomogenität der Verteilungen kategorialer Merkmale beschrieben, analysiert und getestet werden.
MehrKapitel 1.4. Exkurs: Entscheidbarkeit und Komplexität. Mathematische Logik (WS 2012/3) K. 1.4: Entscheidbarkeit und Komplexität 1/10
Kapitel 1.4 Exkurs: Entscheidbarkeit und Komplexität Mathematische Logik (WS 2012/3) K. 1.4: Entscheidbarkeit und Komplexität 1/10 Algorithmen Ein Algorithmus oder eine Rechenvorschrift ist ein effektives
MehrEinführung in die (induktive) Statistik
Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung
MehrKapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen
Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population
MehrTutorial: Balken- und Tortendiagramm
Tutorial: Balken- und Tortendiagramm In der Tabelle ist die Notenverteilung von 510 Teilnehmern an Mathematik Proseminaren angegeben (NA bedeutet einen unbekannten Wert). Der Sachverhalt sollte in zwei
MehrGraphische Darstellung einer univariaten Verteilung:
Graphische Darstellung einer univariaten Verteilung: Die graphische Darstellung einer univariaten Verteilung hängt von dem Messniveau der Variablen ab. Bei einer graphischen Darstellung wird die Häufigkeit
MehrInstitut für Biometrie und klinische Forschung. WiSe 2012/2013
Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive
MehrWahrscheinlichkeits - rechnung und Statistik
Michael Sachs Mathematik-Studienhilfen Wahrscheinlichkeits - rechnung und Statistik für Ingenieurstudenten an Fachhochschulen 4., aktualisierte Auflage 2.2 Eindimensionale Häufigkeitsverteilungen 19 absolute
Mehr