Unsupervised Learning Algorithmen im Data Mining. Heuristische, semiparametrische und parametrische Clusterverfahren
|
|
- Sylvia Schäfer
- vor 8 Jahren
- Abrufe
Transkript
1 Unsupervised Learning Algorithmen im Data Mining Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair WU-Wien, ec3
2 Inhalt Einführung Heuristische Clusterverfahren Hierarchische Clusterverfahren k-means Clusterung Semiparametrische Clusterung 2-Step Cluster Analysis Parametrische Clusterverfahren Mischverteilungsansätze (EM- Algorithmus) Latent Class Analyse (LCA) Ausblick
3 Einführung Der Segmentierungsprozess Aufteilung eines heterogenen Gesamtmarktes in homogene Teilmärkte Unterschiedliche Kunden unterschiedlich ansprechen Segmentierungskriterien Demografisch, psychografisch, verhaltensorientiert Datensatz
4 Hierarchische Clusteranalyse * Clusterbildung basiert auf Distanzmaß Gesamten Variablenvektor betrachten Variablenvektor standardisieren Distanzen zwischen allen möglichen Beobachtungspaaren berechnen Sukzessives aggregieren von Clustern Dendrogramm Distanzmaße Euklidische Distanz zwischen 2 Beobachtungen p ( ( S1) ( S2) ) 2 D = x x S1, S2 j j j= 1 * Sharma, 1996
5 ID Usability Personal Hierarchische Clusterung Erste Clusterbildung Jede Beobachtung 1 Cluster Distanzmatrix berechnen S1 7 7 S2 5 4 S S S5 4 5 S6 8 7 S1 - S1 S2 S3 S4 S5 S6 10,00 9,00 ID S1 S2 S3 S4 S5 S6 S S S S S Personalisierung 8,00 7,00 6,00 5,00 * Quadrierte Euklidische Distanzen 4, Usability
6 Hierarchische Clusteranalyse Weitere Clusterbildung Beobachtungen mit kleinster Distanz gruppieren Distanzen neu berechnen Methoden Zentroid-Methode Single-Linkage Complete-Linkage Average-Linkage Ward-Methode S2 - S2 S3 S4 S5 S1& S6 S S ID Usability Personal S1 & S S2 5 4 S S S5 4 5 S S1&S
7 Hierarchische Clusteranalyse Ende der Gruppierung Wiederholen dieser Schritte bis 1 Cluster übrig Dendrogramm Wieviele Cluster? Heuristische-Inhaltliche Vorgangsweise Root mean square standard deviation (RMSSTD) R-Quadrat (R²) Distanz zwischen den Clustern
8 Hierarchische Clusteranalyse Anwendung im Data Mining kritisch! Computational aufwendig, im ersten Schritt ist jede Beobachtung ein einzelner Cluster Datenverdichtung Einheitliches Skalenniveau Eindimensionale Clusterrichtung Multidimensionale Datenraum wird reduziert Vorteil Erlaubt Einblick in Clustergenerierung Clusteranzahl posterior bestimmbar Holistische Sichtweise
9 K-means Clusterung Nichthierarchischer Clusteransatz Anzahl der Cluster müssen a-priori festgelegt werden Kids Version es war einmal ein Land mit N Häusern K Könige kamen ins Land Jeder König zog ins erste Haus ein Die Leute wollten, dass er seinen Thron in die Mitte des Dorfes verlegt Dies machten die Könige, aber plötzlich waren zusätzliche Häuser näher, andere aber weiter weg. Sie übernahmen die neuen, gaben die entfernten ab und verlegten den Thron wieder ins Zentrum usw. Irgendwann mussten sie den Thron nicht mehr bewegen und sie ließen sich dort nieder
10 K-means Clusterung Vorbemerkungen zum Datenmaterial Verschiedene Skalenniveaus (kategorial, metrisch) Standardisierung Clementine [0;1] Schritt 1: Initialisieren der Clusterzentren maximin-algorithmus in Clementine Schritt 2: Zuordnung der Beobachtungen zu Cluster p Euklidische Distanz ( ) 2 D = x c XC j j j= 1 Schritt 3: Clusterzentroide neu berechnen Clusterupdate C ( k ) = X Schritt 4: zurück zu Schritt 2 oder Abbruch Abbruchkriterien Fehlertoleranz, maximale Iterationsanzahl ( k ) min *
11 K-means Clusterung Anwendungsbeispiel Clusterung in Bezug auf Items (Rating-Skalen) Clusterzentren der endgültigen Lösung Cluster Werbung Bestelleffizienz Usability Portal Personalisierung Portal Produktkosten Produktqualität Produktzuverlässigkeit After-Sales-Service Kreuzklassifikation mit Geschlecht Anzahl Cluster-Nr. des Falls Gesamt Cluster-Nr. des Falls * Geschlecht Kreuztabelle Geschlecht männlich weiblich Gesamt Chi-Quadrat nach Pearson Likelihood-Quotient Anzahl der gültigen Fälle Chi-Quadrat-Tests Wert df Asymptotisch e Signifikanz (2-seitig) 4,564 a 2,102 4,598 2, a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 15,80.
12 K-means Clusterung K-means im Data Mining Computational nicht aufwendig Heuristische Erstlösung Clusterlösung nützlich als Startlösung für komplexere Methoden Nachteile Clusteranzahl fix und nicht statistisch prüfbar Deterministische Zuordnung Ausreißeranfällig
13 2-Step Clusteranalyse 2-Schritt semiparametrischer Ansatz Schritt 1 (Pre-Cluster): Cluster Feature Tree (CF) * * BIRCH- Algorithmus (Zhang, Ramakrishnon, & Livny, 1996)
14 2-Step Clusteranalyse Schritt 2: Hierarchische Clusterung Zu Beginn jeder Endknoten als Startcluster Hierarchische Vorgangsweise analog zu vorhin Likelihood-Kriterium zur Distanzberechnung (Normalverteilung bei metrischen, Multinomialverteilung bei kategorialen) Vorgang wird solange wiederholt bis die gewünschte Zahl an Clustern erreicht ist (Range vorgeben) Clusteranzahl BIC für verschiedene Clusterlösungen berechnen Δ = für optimale Clusterlösung BIC BIC BIC + ( K) ( K 1)
15 2-Step Clusteranalyse Anwendungsbeispiel 2-Step in Clementine Clusterung nach demografischen Variablen Range für Clusteranzahl [2;15] cluster Records * Alter * 2 (53,52%) * Ausbild * 6 (72,18%) * Bundesl * 1 (72,18%) * Dauerb * Mean = 2,683 * Einkomm * 1 (45,42%) * Gender * 0 (50,35%) * Pershaus * 1 (37,32%) * Stelhaus * 1 (52,46%) * Zyklus * 0 (73,59%) cluster Records * Alter * 3 (46,93%) * Ausbild * 6 (46,93%) * Bundesl * 1 (72,81%) * Dauerb * Mean = 5,899 * Einkomm * 1 (39,47%) * Gender * 1 (55,26%) * Pershaus * 2 (71,49%) * Stelhaus * 5 (76,75%) * Zyklus * 1 (76,32%)
16 2-step Clusteranalyse 2-step Clusteranalyse im Data Mining Computational effizient Ermittlung der optimalen Clusteranzahl durch statistisches Kriterium Instabilität des CF-tree Normalverteilungsannahme (?) Keine spezifische Hypothesenprüfung
17 Mischverteilungsansätze Parametrische Clusterung über Mischverteilungen Normalverteilung Ausgangspunkt: Dichte f(x) f ( x ) i 1 1 xi μ = exp 2 2πσ 2 σ 2 f(x) Komponenten Normal-Mixture x Likelihood L: L n 1 1, = exp 2 i= 1 2πσ 2 2 ( x μσ ) log L ML- Schätzung: Maximiere L = 0 μ x i μ σ 2 μ
18 Mischverteilungsansätze Mischverteilungen Mixed Density f(x) ( ) ( 2 ) ( 2 i = π1 i μ1, σ + π2 i μ2, σ ) f x f x f x K 2 ( i) π k ( i μk, σ ) f x = f x k = 1 Likelihood L n 2 ( x μπ) ( ) πk i μk σ μπ L, = f x,, =? L L = 0 μ π i= 1 K k = 1 nicht o.w. lösbar Mischungsgewichte: K k = 1 π = 1 k Clusteranzahl K muss festgelegt werden
19 EM-Algorithmus * Philisophie zum Lösen von ML-Gleichungen Iterativer Lösungsansatz für nichtlineare Gleichungen Expectation-Maximization (EM) Aufbereitung der L als incomplete-data Problem Daten: ( x; k ) äquivalent dazu ( x; z, z,, z, z ) i i i1 i2 ik ik Likelihood n z z ik ik ( xz, ψ) π ( θ ) z { 0,1} L f x c k i i k i= 1 k= 1 K = ik Gruppenzugehörigkeit Z ik als unbekannte Zufallsvariable * Dempster, Laird, & Rubin, 1977
20 EM-Algorithmus Startlösung für Parametervektor festlegen Zufällig oder mit Vorkenntnis (z.b. K-means) E-Step Erwartungswert über log L (bzgl. Z ik ) (, ( m) ( ) ) log ( m ψψ x ψ ) Q = E L (0) ψ Posterior-Wahrscheinlichkeit, dass i-te Beobachtung x i zur k-ten Komponente gehört ( m) ( x) p( Z 1 x) τ ( ψ ) E Z = = = = ik ik ik K π k = 1 f ( x θ m ) ( x θ m ) ( m) ( ) k k i k π f ( m) ( ) k k i k
21 EM-Algorithmus M-Step: Maximiere Update der Mischungsgewichte ( m+ 1) 1 n ( ) k = ik n i= 1 π τ ψ m ( ) Update der Verteilungsparameter θ K n ( m+ 1) ( ) τ ik k= 1 i= 1 ( m) ( x θ ) log L m : ( ψ ) = 0 θ Iterieren bis Konvergenz erreicht ( ( m + 1) ( m) ψ ) ( ψ ) L L < ε ( m) (, ) Q ψψ Likelihood Phi Konvergenzverhalten * erreiche zumindest lok. Maximum L * McLachlan & Krishnan, 1997
22 Latent Class Analyse * Parametrischer Clusteransatz auf kategoriale Daten Parameter Relative Clustergröße π j Clusterspezifischen Itemlösews. p( X = 1 k) = p si x ( ) ( ) 1 si p Xsi = xsi k = pki 1 pki Zentrale Annahme Lokale stochastische Unabhängigkeit I x ( ) ( 1 ) 1 si x = p k p p s ki ki i= 1 ki x x si si Person Dichotomisierte Items: 1) Usability? 2) Personalisierung? 3) Produktqualität? 4) After- Sales Services? Item 1 Item 2 Item 3 Item Datenmatrix X vi Alternativ: mit Antwortmuster s x1 = ( 0,0,0,0) n1 = 8 x = ( 0,0,0,1) n = 14 x x 2 2 s k ( ) = 0,1,0,0 n = 1 ( ) = 1,1,1,1 n = s k * Lazarsfeld & Henry, 1968; siehe auch Formann, 1984
23 Latent Class Analyse Unbedingte Wahrscheinlichkeit für Antwortmuster x ( ) ( 1 ) 1 si x = π s k ki ki k = 1 i= 1 Likelihood aufstellen K p p p I ( p π ) ( ) ( x ns ) π p L x, = p x = p, =? vi v= 1 s= 1 Likelihood prinzipiell lösbar, kann aber passieren, dass EM-Algorithmus (IPF als Spezialfall davon) x si Zuordnung der Personen zu Klassen (Posterior im E-Step) Ws., Klasse k anzugehören, falls Person i Muster s zeigt ( ) ( xs k) p( x ) p p k s = π max k s n 2 k s p ji [ 0,1]
24 Latent Class Analyse Anwendungsbeispiel 2-Klassen-Lösung Datapoints: 826 Classes: 2 Probability of classes [1] Itemprobabilities Klassen-Lösung Datapoints: 826 Classes: 3 Probability of classes [1] Itemprobabilities BIC, estimated model: BIC, saturated model: TestStatistics: Likelihood ratio: p-val: Pearson Chi^2: p-val: BIC, estimated model: BIC, saturated model: TestStatistics: Likelihood ratio: p-val: e-08 Pearson Chi^2: p-val: e-08
25 Mischverteilungsansätze Parametrische Clusterung im Data Mining Kann computational aufwendig werden Individuelle Programmroutine notwendig Keine Heuristiken, theoretisch fundiert Probabilistische Clusterzuordnung Ergebnisse statistisch überprüfbar Testen von speziellen Hypothesen möglich Verfahren vielfältig und denmach auf spezielle Probleme flexibel zuschneidbar
26 Ausblick Konfigurationsfrequenzanalyse Kohonen-Netzwerke Overlapping Clusters Fuzzy-Clusterung Principal Components Literatur Everitt (2001). Cluster Analysis, 4th edition. Wedel, Kamakura (2000). Market Segmentation: Conceptual and Methodological Foundations. Hand, Mannila, Symth (2001). Principles of Data Mining. Hastie, Tibshirani, & Friedman (2001). The Elements of Statistical Learning. McLachlan, Basford (1988). Mixture Models: Inference and Applications to Clustering. McLachlan, Peel (2000). Finite Mixture Models. Witten, Frank (2005). Data Mining Practical Machine Learning Tools and Techniques
Algorithmen zur Kundensegmentierung
Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrÜbungen zur Veranstaltung Statistik 2 mit SPSS
Raum 22, Tel. 39 4 Aufgabe 5. Wird der neue Film MatchPoint von Woody Allen von weiblichen und männlichen Zuschauern gleich bewertet? Eine Umfrage unter 00 Kinobesuchern ergab folgende Daten: Altersgruppe
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrTutorial: Homogenitätstest
Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrClusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel
Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation
MehrAufabe 7: Baum-Welch Algorithmus
Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 baskit@generationfun.at Claudia Hermann, Matr. Nr.0125532 e0125532@stud4.tuwien.ac.at Matteo Savio,
MehrData Mining: Einige Grundlagen aus der Stochastik
Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener
MehrKlausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min
Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe
MehrMethoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07
Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrEinfache statistische Auswertungen mit dem Programm SPSS
Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...
MehrMelanie Kaspar, Prof. Dr. B. Grabowski 1
7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
Mehri x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1
1. Aufgabe: Der E-Commerce-Umsatz (in Millionen Euro) der fünf größten Online- Shopping-Clubs liegt wie folgt vor: Club Nr. Umsatz 1 120 2 72 3 54 4 30 5 24 a) Bestimmen Sie den Ginikoeffizienten. b) Zeichnen
MehrData Mining-Modelle und -Algorithmen
Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,
MehrÜberblick über die Verfahren für Ordinaldaten
Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische
MehrWS 2009/10. Diskrete Strukturen
WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910
MehrMonte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011
Kevin Schellkes und Christian Hendricks 29.08.2011 Inhalt Der herkömmliche Ansatz zur Simulation logarithmischer Renditen Ansatz zur Simulation mit Copulas Test und Vergleich der beiden Verfahren Fazit
MehrEin möglicher Unterrichtsgang
Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige
MehrPrimzahlen und RSA-Verschlüsselung
Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also
MehrGüte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über
Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion
MehrEntscheidungsbaumverfahren
Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch
MehrBeispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen
4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.
MehrVarianzanalyse (ANOVA: analysis of variance)
Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrStatistische Thermodynamik I Lösungen zur Serie 1
Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen
MehrForschungsstatistik I
Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 008/009 Fachbereich
MehrElementare Bildverarbeitungsoperationen
1 Elementare Bildverarbeitungsoperationen - Kantenerkennung - 1 Einführung 2 Gradientenverfahren 3 Laplace-Verfahren 4 Canny-Verfahren 5 Literatur 1 Einführung 2 1 Einführung Kantenerkennung basiert auf
Mehr90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft
Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte
MehrInternet Explorer Version 6
Internet Explorer Version 6 Java Runtime Ist Java Runtime nicht installiert, öffnet sich ein PopUp-Fenster, welches auf das benötigte Plugin aufmerksam macht. Nach Klicken auf die OK-Taste im PopUp-Fenster
MehrDie Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist
Frage Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist k a F (x) =1 k>0,x k x Finden Sie den Erwartungswert und den Median der Dichte für a>1. (Bei
MehrPPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.
PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt
MehrAllgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch
Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrClustering (hierarchische Algorithmen)
Clustering (hierarchische Algorithmen) Hauptseminar Kommunikation in drahtlosen Sensornetzen WS 2006/07 Benjamin Mies 1 Übersicht Clustering Allgemein Clustering in Sensornetzen Clusterheads Cluster basiertes
MehrWillkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang
Mehr15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit
5.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit Einführendes Beispiel ( Erhöhung der Sicherheit bei Flugreisen ) Die statistische Wahrscheinlichkeit, dass während eines Fluges ein Sprengsatz an Bord
MehrWürfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
MehrBinäre abhängige Variablen
Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen
MehrDatenaufbereitung in SPSS. Daten zusammenfügen
Daten zusammenfügen I. Fälle hinzufügen Diese Schritte müssen Sie unternehmen, wenn die Daten in unterschiedlichen Dateien sind; wenn also die Daten von unterschiedlichen Personen in unterschiedlichen
Mehrε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?
BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions
MehrModerne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten
Moderne Clusteralgorithmen eine vergleichende Analyse auf zweidimensionalen Daten Marcus Josiger, Kathrin Kirchner Friedrich Schiller Universität Jena 07743 Jena m.josiger@gmx.de, k.kirchner@wiwi.uni-jena.de
Mehr6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
MehrBearbeiten elektronische Rechnungen (Invoices)
Bearbeiten elektronische Rechnungen (Invoices) 1. Zweck des Programms: Die elektronischen Rechnungen können zur Zeit für folgenden Bereiche genutzt werden:.. Anzeige der Rechnungen mit den relevanten Werten..
MehrAgile Vorgehensmodelle in der Softwareentwicklung: Scrum
C A R L V O N O S S I E T Z K Y Agile Vorgehensmodelle in der Softwareentwicklung: Scrum Johannes Diemke Vortrag im Rahmen der Projektgruppe Oldenburger Robot Soccer Team im Wintersemester 2009/2010 Was
MehrInstallationsanleitung WibuKey Treiber
Profi Line Warenwirtschaft Installationsanleitung WibuKey Treiber Bei der Installation der WibuKey ist zunächst zwischen der Serverinstallation und der reinen Client- bzw. Arbeitsplatzinstallation zu unterscheiden.
MehrMessgeräte: Mess-System-Analyse und Messmittelfähigkeit
Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße
MehrKommentierter SPSS-Ausdruck zur logistischen Regression
Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer
MehrAufgaben zum Datenmanagement
Aufgaben zum Datenmanagement Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/10 Datentransformationen Berechnung neuer Variablen Berechne das Durchschnittsalter und die Durchschnittsgröße beider
MehrStatistische Auswertung:
Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens 1 Organisatorisches Freitag, 05. Mai 2006: keine Vorlesung! aber Praktikum von 08.00 11.30 Uhr (Gruppen E, F, G, H; Vortestat für Prototyp)
MehrJava-Programmierung mit NetBeans
Java-Programmierung mit NetBeans Steuerstrukturen Dr. Henry Herper Otto-von-Guericke-Universität Magdeburg - WS 2012/13 Steuerstrukturen Steuerstrukturen Verzweigungen Alternativen abweisende nichtabweisende
MehrBlueEvidence Services in Elexis
BlueEvidence Services in Elexis Bezeichnung: BlueEvidence Services Author: Thomas Huster Version: 1.1.0, 06.03.2013 Beschreibung: Dieses Plug-In integriert die BlueEvidence Services
MehrInformatik-Sommercamp 2012. Mastermind mit dem Android SDK
Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrLineare Gleichungssysteme I (Matrixgleichungen)
Lineare Gleichungssysteme I (Matrigleichungen) Eine lineare Gleichung mit einer Variable hat bei Zahlen a, b, die Form a b. Falls hierbei der Kehrwert von a gebildet werden darf (a 0), kann eindeutig aufgelöst
MehrUniversität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B
Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben
MehrProfessionelle Seminare im Bereich MS-Office
Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion
MehrAuswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro
Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen
MehrPlanen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher
Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse
MehrStatistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005
Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen
MehrEvolutionäre Algorithmen. SS 2015 Woche 01
Evolutionäre Algorithmen SS 2015 Woche 01 Inhalt Organisation der Übung Wiederholung Die Komponenten eines EA Zwei Minimal-Beispiele Besprechung des Übungsblatts Das Team Vorlesung Prof. Dr.-Ing. habil.
MehrOracle 9i Real Application Clusters
Oracle 9i Real Application Clusters Seite 2-1 Agenda Einführung Verfügbarkeit / Skalierbarkeit Clusterarchitekturen Oracle Real Application Clusters Architektur Requirements Installation und Konfiguration
MehrGrundlagen der Inferenzstatistik
Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,
MehrBinäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen
Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders
MehrDas Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005
Das Bayes-Theorem Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005 Ein lahmer Witz Heute im Angebot: Ein praktisches Beispiel zur Einleitung Kurze Wiederholung der Überblick über Reverend
MehrTheoretische Grundlagen der Informatik WS 09/10
Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3
MehrMaximizing the Spread of Influence through a Social Network
1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2
Mehr1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?
Pivot Tabellen PIVOT TABELLEN. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen
MehrRegistrierung im Portal (Personenförderung)
Registrierung im Portal (Personenförderung) Zweck Um das DAAD-Portal zu nutzen und z.b. eine Bewerbung einzureichen, müssen Sie sich zuerst registrieren. Mit der Registrierung machen Sie sich einmalig
MehrAnwenderdokumentation AccountPlus GWUPSTAT.EXE
AccountPlus Inhaltsverzeichnis Inhaltsverzeichnis Anwenderdokumentation AccountPlus GWUPSTAT.EXE (vorläufig) ab Version 6.01 INHALTSVERZEICHNIS...1 1 ALLGEMEINES...2 2 INSTALLATION UND PROGRAMMAUFRUF...2
MehrLernmaterial für die Fernuni Hagen effizient und prüfungsnah
Lernmaterial für die Fernuni Hagen effizient und prüfungsnah www.schema-f-hagen.de Sie erhalten hier einen Einblick in die Dokumente Aufgaben und Lösungen sowie Erläuterungen Beim Kauf erhalten Sie zudem
MehrÜberblick. Lineares Suchen
Komplexität Was ist das? Die Komplexität eines Algorithmus sei hierbei die Abschätzung des Aufwandes seiner Realisierung bzw. Berechnung auf einem Computer. Sie wird daher auch rechnerische Komplexität
MehrSCHULUNG MIT SYSTEM: E-LEARNING VON RAUM21
SCHULUNG MIT SYSTEM: E-LEARNING VON RAUM21 - Schulungskonzept - Moodle Das E-Learning System - Die E-Learning-Plattform von raum21 - Ansprechpartner D A S S C H U L U N G S K O N Z E P T V O N R A U M
MehrStep by Step Webserver unter Windows Server 2003. von Christian Bartl
Step by Step Webserver unter Windows Server 2003 von Webserver unter Windows Server 2003 Um den WWW-Server-Dienst IIS (Internet Information Service) zu nutzen muss dieser zunächst installiert werden (wird
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
MehrA 8: Preisbildung auf freien Märkten (1)
A 8 Preisbildung auf freien Märkten (1) Eine Marktfrau bietet auf dem Wochenmarkt Eier an. Angebot und Nachfrage werden lediglich über den Preismechanismus des freien Marktes gesteuert. Über die Verhaltensweise
MehrPredictive Modeling Markup Language. Thomas Morandell
Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML
Mehr3D-Konstruktion Brückenpfeiler für WinTrack (H0)
3D-Konstruktion Brückenpfeiler für WinTrack (H0) Zusammenstellung: Hans-Joachim Becker http://www.hjb-electronics.de 2007 Altomünster, den 25. März 2007 Hans-Joachim Becker - 1 - Vorbemerkung Das Programm
MehrEinfache Varianzanalyse für abhängige
Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese
MehrHans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik
Hans-Friedrich Eckey SS 2004 Skript zur Lehrveranstaltung Multivariate Statistik Vormerkungen I Vorbemerkungen Das Manuskript beinhaltet den gesamten Stoff, der Bestandteil der Lehrveranstaltung "Multivariate
MehrPrüfung eines Datenbestandes
Prüfung eines Datenbestandes auf Abweichungen einzelner Zahlen vom erwarteten mathematisch-statistischen Verhalten, die nicht mit einem Zufall erklärbar sind (Prüfung auf Manipulationen des Datenbestandes)
MehrERPaaS TM. In nur drei Minuten zur individuellen Lösung und maximaler Flexibilität.
ERPaaS TM In nur drei Minuten zur individuellen Lösung und maximaler Flexibilität. Was ist ERPaaS TM? Kurz gesagt: ERPaaS TM ist die moderne Schweizer Business Software europa3000 TM, welche im Rechenzentrum
MehrSS 2005 FAU Erlangen 20.6.2005. Eine Wegeplanungs-Strategie. Jeremy Constantin, Michael Horn, Björn Gmeiner
SS 2005 FAU Erlangen 20.6.2005 Voronoi Diagramm Eine Wegeplanungs-Strategie Jeremy Constantin, Michael Horn, Björn Gmeiner Grundseminar: Umgebungsexploration und Wegefindung mit Robotern am Beispiel "Katz
MehrLastenheft. Poker iphone App
Lastenheft Poker iphone App Auftraggeber: Lehrstuhl für Informatik V Prof. Dr. Reinhard Männer Universität Heidelberg Zuletzt geändert: 10.April 2012 Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis
MehrSuche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20
Suche in Spielbäumen Suche in Spielbäumen KI SS2011: Suche in Spielbäumen 1/20 Spiele in der KI Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche Einschränkung von Spielen auf: 2 Spieler:
MehrKorrelation - Regression. Berghold, IMI
Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines
MehrStatuten in leichter Sprache
Statuten in leichter Sprache Zweck vom Verein Artikel 1: Zivil-Gesetz-Buch Es gibt einen Verein der selbstbestimmung.ch heisst. Der Verein ist so aufgebaut, wie es im Zivil-Gesetz-Buch steht. Im Zivil-Gesetz-Buch
MehrMining High-Speed Data Streams
Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:
MehrPVL 3 - Roulette. (5 Punkte) Abgabe bis 20.12.2015
PVL 3 - Roulette (5 Punkte) Abgabe bis 20.12.2015 Beim Roulette wird in jeder Runde eine von 37 Zahlen (0-36) ausgespielt. Dabei können Geldbeträge direkt auf eine Zahl zwischen 1 und 36 gesetzt werden
MehrEine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/
MehrOrientierungsaufgaben für das ABITUR 2014 MATHEMATIK
Orientierungsaufgaben für das ABITUR 01 MATHEMATIK Im Auftrag des TMBWK erarbeitet von: Aufgabenkommission Mathematik Gymnasium, Fachberater Mathematik Gymnasium, CAS-Multiplikatoren Hinweise für die Lehrerinnen
MehrWas ist clevere Altersvorsorge?
Was ist clevere Altersvorsorge? Um eine gute Altersvorsorge zu erreichen, ist es clever einen unabhängigen Berater auszuwählen Angestellte bzw. Berater von Banken, Versicherungen, Fondsgesellschaften und
MehrR-Baum R + -Baum X-Baum M-Baum
R-Baum und Varianten R-Baum R + -Baum X-Baum M-Baum staab@uni-koblenz.de 1 R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum
Mehr