Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix"

Transkript

1 TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung - Diskriminanzanalyse Rohdatenmatrix und Distanzmatrix Proximitätsmaße und Merkmalsvariablen Distanzmaße bei quantitativen Merkmalen Euklidische Distanz Pearsonsche Distanz Manhattan-Metrik Gower-Distanz Mahalanobis-Distanz Klassifikationsverfahren Complete-Linkage-Verfahren Single-Linkage-Verfahren Average-Linkage-Verfahren Ward-Verfahren Centroid-Verfahren Median-Verfahren McQuitty-Verfahren k-mittelwerte-verfahren Eigenschaften der Klassifikationsverfahren

2 Fragestellung Aufgaben Einordnung von Objekten in Gruppen anhand von mehreren Merkmalen Beispiel: Klassifikation Optimale Aufteilung einer Menge von Objekten in möglichst homogene Gruppen anhand ihrer Merkmale Untersuchungsobjekte: Betriebskenngrößen: Landwirtschaftliche Betriebe Landwirtschaftliche Nutzfläche Großvieheinheiten Betriebseinkommen etc. Beispiel: Einteilung von Pflanzenbeständen in Fruchtarten anhand ihres Rückstreuverhaltens bei verschiedenen Wellenlängen Datenreduktion Einteilung in Betriebe ähnlicher Wirtschaftsweise, evtl. Pflanzenbaubetriebe, Tierhaltungsbetriebe, Gemischtbetriebe Vereinfachte Darstellung einer Menge von Objekten Auffinden von Mustergruppen oder Mustertypen n p x ik Objekte o i Merkmalsvariablen x k Ausprägung des k-ten Merkmals des i-ten Objekts (i=1,...,n, k=1,...,p) Beispiel: Welches Rückstreuverhalten ist für einen gesunden Zuckerrübenbestand typisch? Hypothesenerzeugung Auffinden von Hypothesen über die Merkmale bzw. die Gruppeneinteilung. Merkmal 2 Merkmal 2 Beispiel: Hat ein gesunder Zuckerrübenbestand ein signifikant anderes Rückstreuverhalten als ein kranker Bestand? Merkmal 1 Merkmal 1

3 Gruppenzugehörigkeit unbekannt Einordnung von Objekten in ähnliche Gruppen unüberwachte Klassifikation (unsupervised classification) Klassifikation Ausgangssituation n Objekte o i, i = 1,2,...,n p quantitative, qualitative oder binäre Merkmalsvariablen Rohdatenmatrix X n p = (), k = 1,2,...,p Merkmal 1 þ Merkmal k þ Merkmal p Objekt 1 x11 þ x1k þ x1p!!!! Objekt i x þ x þ x i1 ik ip!!!! Objekt n x þ x þ x n1 nk np Diskriminanzanalyse Gruppenzugehörigkeit bekannt Einordnung neuer Objekte in bekannte Gruppen überwachte Klassifikation (supervised classification) Gruppe 1 Gruppe 2 Für jedes Objektpaar (o i,o j) ist eine Distanz d ij definiert Distanzmatrix D n n = (d ij), i,j = 1,2,...,n Objekt 1 þ Objekt i þ Objekt n Objekt 1 d11 þ d1i þ d1n!!!! Objekt i d þ d þ d i1 ii in!!!! Objekt n d þ d þ d n1 ni nn Gruppe 3 Gesucht: Aufteilung der n Objekte in g Gruppen Objekte einer Gruppe möglichst ähnlich (kleine Distanz) Gruppen untereinander möglichst unähnlich (große Distanz) neue Objekte Untersuchung der Gruppenunterschiede Klassifikation mit Diskriminanzanalyse Fragen: Welches Proximitätsmaß wird gewählt? Welches Klassifikationsverfahren legt Einteilung fest? Wieviele Gruppen sind zu unterscheiden?

4 Proximitätsmaße Distanzmaße bei quantitativen Merkmalen Ähnlichkeitsmaße: Quantifizieren die Ähnlichkeit zwischen zwei Objekten. Je größer der Wert, desto ähnlicher sind die beiden Objekte. Distanzmaße: Quantifizieren die Unterschiedlichkeit zwischen zwei Objekten. Je größer der Wert, desto unähnlicher sind die beiden Objekte. Euklidische Distanz d 2 (O i,o j )' d 2 p 2 (O i,o j )' j k'1 j p k'1 Pearsonsche Distanz &x jk 2 &x jk 2 (quadriert) Merkmalsvariablen Binär: Merkmal vorhanden (1) oder nicht (0) Tanimoto-Koeffizient Russel & Rao (RR)-Koeffizient Simple Matching (M)-Koeffizient Nominal und Ordinal: Transformation in binäre Merkmale Quantitativ: Metrische Merkmale Euklidische Distanz Pearsonsche Distanz Manhattan-Metrik Gower-Distanz Mahalanobis-Distanz d P (O i,o j )' Manhattan-Metrik d 1 (O i,o j )' j p Gower-Distanz k'1 d G (O i,o j )' j p k'1 j p k'1 &x jk 2 s 2 k &x jk Mahalanobis-Distanz &x jk r k mit r k 'max k &min k d 2 M ' x i &x ) j S &1 x i &x j mit s rc ' 1 n n j i'1 x ir &x.r x ic &x.c

5 Fette - Fettsäuremuster Hierarchische Agglomerative Klassifikationsverfahren Buttersäure Laurinsäure Myristinsäure [g / 100 g] Palmitinsäure Stearinsäure Ölsäure Linolsäure Linolensäure Anfang: n Gruppen mit jeweils einem Objekt Schrittweise Fusion ähnlicher Objekte oder Gruppen Reduzierte Distanzmatrix Heterogenitätsmaß der Partition h(p) = min d µ Darstellung der Partitionen P durch ein Dendrogramm Kuhmilch Maisöl Palmkernfett Rindertalg Schweinefett Sojaöl Verfahren d (µ)8 Complete-Linkage max(d,d ) 8 µ8 Single-Linkage min(d,d ) 8 µ8 Fette - Euklidische Distanzen Average-Linkage n d 8 %n µ d µ8 n %n µ Ward (n %n 8 )d 8 %(n µ %n 8 )d µ8 &n 8 d µ n %n µ %n 8 Kuhmilch Maisöl Palmkernfett Rindertalg Schweinefett Sojaöl Centroid n d 8 %n µ d µ8 n %n µ & n n µ d µ (n %n µ ) 2 Kuhmilch 0 Maisöl Palmkernfett Rindertalg Schweinefett Sojaöl Median McQuitty d 8 %d µ8 2 d 8 %d µ8 2 & d µ 4

6 Fette - Complete-Linkage Fette - Complete-Linkage Euklidische Distanzmatrix D: * * * * * * Fusion von 2 (Maisöl) und 6 (Sojaöl) h = min d = d = µ 26 Bestimmung der neuen Distanzen: d = max(d,d ) = d = 66.0 (26) d = max(d,d ) = d = 73.4 (26) d = max(d,d ) = d = 54.6 (26) d = max(d,d ) = d = 60.7 (26) Reduzierte Distanzmatrix D : 1 (26) * (26) 66.0 * * * * Reduzierte Distanzmatrix D : 1 (26) * (26) 66.0 * * * * Fusion von 4 (Rindertalg) und 5 (Schweinefett) h = min d = d = µ 45 Bestimmung der neuen Distanzen: d (45)1 = max(d 41,d 51) = d 41 = 23.6 d (45)(26) = max(d 4(26),d 5(26) ) = d 5(26) = 60.7 d (45)3 = max(d 43,d 53) = d 43 = 64.5 Reduzierte Distanzmatrix D : 1 (26) 3 (45) 1 * (26) 66.0 * * (45) *

7 Fette - Complete-Linkage Fette - Complete-Linkage Reduzierte Distanzmatrix D : 1 (26) 3 (45) 1 * (26) 66.0 * * (45) * Fusion von (45) und 1 (Kuhmilch) h = min d = d = µ (45)1 Bestimmung der neuen Distanzen: d = d = max(d,d ) = d = 66.0 (1(45))(26) (145)(26) 1(26) (45)(26) 1(26) d = d = max(d,d ) = d = 64.5 (1(45))3 (145)3 13 (45)3 (45)3 Reduzierte Distanzmatrix D : (145) (26) 3 (145) * (26) 66.0 * * Reduzierte Distanzmatrix D : (145) (26) 3 (145) * (26) 66.0 * * Fusion von (145) und 3 (Palmkernfett) h = min d = d = µ (145)3 Bestimmung der neuen Distanzen: d = d = max(d,d ) = d = 73.4 (3(145))(26) (1345)(26) 3(26) (145)(26) 3(26) Reduzierte Distanzmatrix D : (1345) (26) (1345) * (26) 73.4 * Fusion von (1345) und (26) zu (123456) h = min d = d = µ (1345)(26)

8 Fette - Complete-Linkage Iterative Klassifikationsverfahren Partitionen Dendrogramm Partition Index Gruppen P (1), (2), (3), (4), (5), (6) P (1), (26), (3), (4), (5) P (1), (26), (3), (45) P (145), (26), (3) P (1345), (26) P (123456) h Iterative Verbesserung einer gegebenen Anfangspartition k-mittelwerte-verfahren (k-means-procedure) Anfangspartition aufgrund hierarchischem Verfahren zufällig willkürlich Verschiebung von Objekten in verschiedene Gruppen Kriterien: Abstandsquadratsummenkriterium Varianzkriterium Determinantenkriterium Spurkriterium Lokales (jedoch i.a. kein globales) Minimum Kuhmilch Rindertalg Schweinefett Palmkernfett Maisöl Sojaöl

9 Betriebe Betriebe - Klassifikation MTB > Retrieve "TPG_BETR.MTW". Retrieving worksheet from file: TPG_BETR.MTW MTB > Print 'LN' 'GV/ha' 'AK'. Data Display Row LN GV/ha AK MTB > Cluo 'LN' 'GV/ha' 'AK'; SUBC> Complete; SUBC> Euclidean; SUBC> Dendrogram. Cluster Analysis of : LN; GV/ha; AK Euclidean Distance, Complete Linkage Amalgamation Steps Step No. of Simil. Dist. Clusters New No. of obs. clusters level level joined cluster in new cluster Final Partition Number of clusters: 1 No. of Within cluster Aver. dist. Max. dist. obs. sum of squares from centroid from centroid Cluster

10 Betriebe - Dendrogramme Betriebe - Dendrogramme Similarity Complete-Linkage - Euklidischer Abstand Similarity Average-Linkage - Euklidischer Abstand Similarity Single-Linkage - Euklidischer Abstand Average-Linkage - Quadratischer Euklidischer Abstand Similarity

11 Betriebe - Dendrogramme Betriebe - Ward-Klassifikation Distance Distance Ward - Euklidischer Abstand Ward - Manhattan-Metrik MTB > Name c4 'Ward' MTB > Cluo 'LN' 'GV/ha' 'AK'; SUBC> Ward; SUBC> Pearson; SUBC> Standardize; SUBC> Number 3; SUBC> Dendrogram; SUBC> Title "Ward - Pearsonscher Abstand"; SUBC> Type 2 3 4; SUBC> Member 'Ward'. Cluster Analysis of : LN; GV/ha; AK Standardized Variables, Pearson Distance, Ward Linkage Amalgamation Steps Step No. of Simil. Dist. Clusters New No. of obs. clusters level level joined cluster in new cluster : : : : : : : : : : : : : : : : Final Partition Number of clusters: 3 No. of Within cluster Aver. dist. Max. dist. obs. sum of squares from centroid from centroid Cluster Cluster Cluster Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Grand centrd LN GV/ha AK Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster Cluster Cluster

12 Betriebe - k-means-klassifikation Betriebe - Vergleich Ward - k-means MTB > Name c5 'k-means' MTB > KMean 'LN' 'GV/ha' 'AK'; SUBC> Init 'Ward'; SUBC> Standardize; SUBC> Member 'k-means'. K-means Cluster Analysis: LN; GV/ha; AK Standardized Variables Final Partition Number of clusters: 3 No. of Within cluster Aver. dist. Max. dist. obs. sum of squares from centroid from centroid Cluster Cluster Cluster Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Grand centrd LN GV/ha AK MTB > Print 'LN' 'GV/ha' 'AK' 'Ward' 'k-means'. Data Display Row LN GV/ha AK Ward k-means Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster Cluster Cluster Similarity Ward - Pearsonscher Abstand

13 Eigenschaften der einzelnen Klassifikationsverfahren Complete-Linkage: dilatierend kleine homogene Gruppen betont Gruppenunterschiede Single-Linkage: kontrahierend große Gruppen betont Zusammenhang in den Gruppen Average-Linkage: zwischen Complete- und Single-Linkage Ward-Verfahren: leistungsfähig sehr homogene Gruppen Centroid-Verfahren: weniger empfehlenswert Median-Verfahren: weniger empfehlenswert McQuitty-Verfahren: weniger empfehlenswert k-means-verfahren: Verbesserung einer hierarchischen Anfangspartition

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

4.3 Hierarchische Klassifikationsverfahren

4.3 Hierarchische Klassifikationsverfahren 4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik Hans-Friedrich Eckey SS 2004 Skript zur Lehrveranstaltung Multivariate Statistik Vormerkungen I Vorbemerkungen Das Manuskript beinhaltet den gesamten Stoff, der Bestandteil der Lehrveranstaltung "Multivariate

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Datamining Ein kleiner Einblick

Datamining Ein kleiner Einblick Datamining Ein kleiner Einblick Autoren: Boris Kulig u. Bertram Schäfer Inhaltsverzeichnis 1 Begriff, Funktion, Verfahren 1 2 Clusteranalyse 1 2.1 Proximitätsmaße 3 2.1.1 Nominal-Skala 3 2.1.2 Metrische

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Grundlagen clusteranalytischer Verfahren

Grundlagen clusteranalytischer Verfahren Grundlagen clusteranalytischer Verfahren Institut für Soziologie - Universität Duisburg-Essen Prof. Petra Stein - Sven Vollnhals 1. April 2011 Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen der Clusteranalyse

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005 Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse II Stefan Etschberger Sommersemester 2005 Organisatorisches Vorlesung Montag, 10.15-11.45 Uhr Vorlesungsmaterialien

Mehr

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass:

Clustern. Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Text-Clustern 1 Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so dass: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen

Mehr

Präsentation der Ergebnisse von Clusteranalysen

Präsentation der Ergebnisse von Clusteranalysen Autorin: Antje Seidel-Schulze, Deutsches Institut für Urbanistik, Berlin Präsentation der Ergebnisse von Clusteranalysen Der folgende Themenkomplex beantwortet die Frage, wie die von Statistikprogrammen

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung

2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung 2 von Objekten Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 23 316 Gliederung Kapitel 2: von Objekten 2.1 Objekte und Merkmale 2.2 Merkmalstypen und ihre Nominale Merkmale Ordinale

Mehr

Biometrische und Ökonometrische Methoden I Lösungen 9

Biometrische und Ökonometrische Methoden I Lösungen 9 TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN WS 00/01 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Biometrische und Ökonometrische Methoden I Lösungen 9 1. a) MTB > Retrieve "H:\STUDENT\MINITAB\OPELVW.MTW".

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................

Mehr

Unsupervised Learning Algorithmen im Data Mining. Heuristische, semiparametrische und parametrische Clusterverfahren

Unsupervised Learning Algorithmen im Data Mining. Heuristische, semiparametrische und parametrische Clusterverfahren Unsupervised Learning Algorithmen im Data Mining Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair WU-Wien, ec3 Inhalt Einführung Heuristische Clusterverfahren Hierarchische

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Multiple Regression Mais-NP Zweidimensionale lineare Regression Data Display Dreidimensionale lineare Regression Multiple Regression

Multiple Regression Mais-NP Zweidimensionale lineare Regression Data Display Dreidimensionale lineare Regression Multiple Regression Multiple Regression! Zweidimensionale lineare Regression Modell Bestimmung der Regressionsebene Multiples Bestimmtheitsmaß Test des Bestimmtheitsmaßes Vertrauensintervalle für die Koeffizienten Test des

Mehr

Statistik II: Klassifikation und Segmentierung

Statistik II: Klassifikation und Segmentierung Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme Eines der am häufigsten auftretenden Standardprobleme der angewandten Mathematik ist das Lösen linearer Gleichungssysteme, etwa zur Netzwerkberechnung in der Elektrotechnik oder

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 2 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNGSBAUMVERFAHREN

Mehr

Clusteranalyse mit gemischtskalierten Merkmalen: SPSS-Makropaket Paare 1

Clusteranalyse mit gemischtskalierten Merkmalen: SPSS-Makropaket Paare 1 Clusteranalyse mit gemischtskalierten Merkmalen: SPSS-Makropaket Paare Norman Fickel Friedrich-Alexander-Universität Erlangen-Nürnberg Wirtschafts- und Sozialwissenschaftliche Fakultät Lehrstuhl für Statistik

Mehr

4. Clusteranalyse. 4.1 Einleitung

4. Clusteranalyse. 4.1 Einleitung 4. Clusteranalyse 4. Einleitung Die Clusteranalyse wird eingesetzt, um Objekte Kunden, Regionen etc. in Gruppen (Cluster) einzuteilen. In der Marktforschung werden beispielsweise Marktsegmente mit einer

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Einführung in die Ähnlichkeitsmessung

Einführung in die Ähnlichkeitsmessung Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht

Mehr

Clusteranalyse Hierarchische Verfahren

Clusteranalyse Hierarchische Verfahren Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges

Mehr

Multidimensionale Skalierung

Multidimensionale Skalierung Multidimensionale Skalierung TU CHEMNITZ SEMINAR MULTIVARIATE VERFAHREN REFERENTEN: ANJA FLIEGNER, THOMAS KRANEBURG, FREDERIK SCHENGEL DOZENT DR. THOMAS SCHÄFER Inhalt 1. Was ist MDS? 2. Ablauf einer MDS-Analyse

Mehr

Übungsblatt 4: Multivariate Analyseverfahren

Übungsblatt 4: Multivariate Analyseverfahren Prof Bernd Fitzenberger, PhD Dr Roland Füss Übung zur Veranstaltung Empirische Wirtschaftsforschung Aderonke Osikominu Albert-Ludwigs-Universität Freiburg Mehdi Hosseinkouchack Wintersemester 2007/08 Übungsblatt

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Einführung in die Clusteranalyse mit SPSS-X für Historiker und Sozialwissenschaftler Bacher, Johann

Einführung in die Clusteranalyse mit SPSS-X für Historiker und Sozialwissenschaftler Bacher, Johann www.ssoar.info Einführung in die Clusteranalyse mit SPSS-X für Historiker und Sozialwissenschaftler Bacher, Johann Veröffentlichungsversion / Published Version Zeitschriftenartikel / journal article Zur

Mehr

Einführung ins Experimentieren. Methodenpropädeutikum II Allgemeine Psychologie. Überlegungen zum exp. Design. Adrian Schwaninger & Stefan Michel

Einführung ins Experimentieren. Methodenpropädeutikum II Allgemeine Psychologie. Überlegungen zum exp. Design. Adrian Schwaninger & Stefan Michel Methodenpropädeutikum II Allgemeine Psychologie Adrian Schwaninger & Stefan Michel Einführung ins Experimentieren 1. Fragestellung und Hypothesen 2. Variablen und Operationalisierung UV und Störvariablen

Mehr

Multivariate Statistik im Quantitativen Marketing - Konzeption und Anwendungsbereiche der Clusteranalyse -

Multivariate Statistik im Quantitativen Marketing - Konzeption und Anwendungsbereiche der Clusteranalyse - Institut für Angewandtes Markt-Management Prof. Dr. Wolfgang Müller Reihe Forschungspapier Band 9 Multivariate Statistik im Quantitativen Marketing - Konzeption und Anwendungsbereiche der Clusteranalyse

Mehr

Korrelation und Regression

Korrelation und Regression FB 1 W. Ludwig-Mayerhofer und 1 und FB 1 W. Ludwig-Mayerhofer und 2 Mit s- und sanalyse werden Zusammenhänge zwischen zwei metrischen Variablen analysiert. Wenn man nur einen Zusammenhang quantifizieren

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Numerisches Programmieren

Numerisches Programmieren Technische Universität München SoSe 213 Institut für Informatik Prof. Dr. Thomas Huckle Dipl.-Inf. Christoph Riesinger Dipl.-Math. Jürgen Bräckle Numerisches Programmieren 2. Programmieraufgabe: Lineare

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Clusteranalyse K-Means-Verfahren

Clusteranalyse K-Means-Verfahren Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher

Mehr

Folien zum Textbuch. Kapitel 6: Managementunterstützungssysteme. Teil 2: Textbuch-Seiten 794-825

Folien zum Textbuch. Kapitel 6: Managementunterstützungssysteme. Teil 2: Textbuch-Seiten 794-825 Folien zum Textbuch Kapitel 6: Managementunterstützungssysteme Teil 2: Managementunterstützung auf strategischer Ebene Datenverwaltung und -auswertung Textbuch-Seiten 794-825 WI 1 MUS MUS auf strategischer

Mehr

Anwendung der Business Analytics

Anwendung der Business Analytics Anwendung der Business Analytics TDWI 2013 München Prof. Dr. Carsten Felden Dipl.-Wirt.-Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg (Sachsen) Institut für Wirtschaftsinformatik

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Häufigkeitsverteilungen und Statistische Maßzahlen Statistik SS Variablentypen Qualitative

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

SozialwissenschaftlerInnen II

SozialwissenschaftlerInnen II Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Varianzanalyse Statistik

Mehr

Kurzbeitrag Clusteranalyse als Instrument zur Gruppierung von spezialisierten Marktfruchtunternehmen

Kurzbeitrag Clusteranalyse als Instrument zur Gruppierung von spezialisierten Marktfruchtunternehmen Kurzbeitrag Clusteranalyse als Instrument zur Gruppierung von spezialisierten Marktfruchtunternehmen Michael Herink und Volker Petersen Martin-Luther-Universität Halle-Wittenberg Zusammenfassung Ziel der

Mehr

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

Überblick über multivariate Verfahren in der Statistik/Datenanalyse Überblick über multivariate Verfahren in der Statistik/Datenanalyse Die Klassifikation multivariater Verfahren ist nach verschiedenen Gesichtspunkten möglich: Klassifikation nach der Zahl der Art (Skalenniveau)

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

(GENERAL FULL FACTORIALS)

(GENERAL FULL FACTORIALS) TQU BUSINESS GMBH VOLLFAKTORIELLE VERSUCHSPLÄNE (GENERAL FULL FACTORIALS) Lernziele Sie können vollfaktorielle Versuchspläne auf und mehr Stufen erstellen. Sie kennen Haupteffekte und Wechselwirkungen

Mehr

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh?

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? best-reactions GmbH Hirschberger Straße 33 D 90559 Burgthann Alle Rechte vorbehalten HRB 23679, Amtsgericht Nürnberg Geschäftsführer Alexander P.

Mehr

Beschleunigung hierarchischer Clusterverfahren für allgemeine metrische Distanzmaße. Till Schäfer. Algorithm Engineering Report TR13-1-002 Juni 2013

Beschleunigung hierarchischer Clusterverfahren für allgemeine metrische Distanzmaße. Till Schäfer. Algorithm Engineering Report TR13-1-002 Juni 2013 Beschleunigung hierarchischer Clusterverfahren für allgemeine metrische Distanzmaße Till Schäfer Algorithm Engineering Report TR13-1-002 Juni 2013 ISSN 1864-4503 Fakultät für Informatik Algorithm Engineering

Mehr

Eine neue Methode zur Visualisierung qualitativer Daten

Eine neue Methode zur Visualisierung qualitativer Daten Eine neue Methode zur Visualisierung qualitativer Daten Jürgen Hansohm Juergen.Hansohm@unibw-muenchen.de http://www.unibw-muenchen.de/campus/wow/hansohm.html Abstract: Zur Visualisierung multivariater

Mehr

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth

Mehr

Angewandte multivariate Statistik mit R Landau 2007. Kaarina Foit und Ralf Schäfer

Angewandte multivariate Statistik mit R Landau 2007. Kaarina Foit und Ralf Schäfer Angewandte multivariate Statistik mit R Landau 2007 Kaarina Foit und Ralf Schäfer Die vorliegenden Folien sind der zweite Teil einer Vorlesung zum Thema multivariate Statistik mit R. Mehrere Einführungen

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Es wurden die Körpergrößen von 3 Versuchspersonen, sowie Alter und Geschlecht erhoben. (Jeweils Größen pro Faktorstufenkombination). (a)

Mehr

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8 Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik

Mehr

Modulklausur Multivariate Verfahren

Modulklausur Multivariate Verfahren Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr

Heuristische Suche. Auswahl initialer Lösung. Auswahl nächster Lösung (basierend auf voriger) Such-Strategie. Qualitätsbetrachtung

Heuristische Suche. Auswahl initialer Lösung. Auswahl nächster Lösung (basierend auf voriger) Such-Strategie. Qualitätsbetrachtung Heuristische Suche Die meisten Heuristiken basieren auf iterativer Suche bestehend aus folgenden Elementen: Auswahl einer initialen (vorläufigen) Lösung (z.b. eine Sequenz) Betrachtung der Qualität der

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelationsanalysen Kovariation und Kovarianz Korrelation: - Interpretation

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen LACE Katharina Morik, Claus Weihs LS 8 Informatik 26.6.2011 1 von 70 Gliederung LS 8 Informatik 1 Organisation von Sammlungen Web 2.0 Clustering verteilter Daten 2 LACE 3

Mehr

Vergleich von Gruppen I

Vergleich von Gruppen I Vergleich von Gruppen I t-test und einfache Varianzanalyse (One Way ANOVA) Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Der unverbundene t-test mit homogener Varianz Beispiel Modell Teststatistik

Mehr

SPSS IV Gruppenvergleiche (>2 Gruppen) A priori & post hoc-tests. H0: Die mittlere Anzahl der Seegräser (µ) hängt nicht von der Seeigel menge ab.

SPSS IV Gruppenvergleiche (>2 Gruppen) A priori & post hoc-tests. H0: Die mittlere Anzahl der Seegräser (µ) hängt nicht von der Seeigel menge ab. SPSS IV Gruppenvergleiche (>2 Gruppen) A priori & post hoc-tests A parametrisch -- ANOVA Beispieldatei: Seegräser_ANOVA H0: Die mittlere Anzahl der Seegräser (µ) hängt nicht von der Seeigel menge ab. µ

Mehr

Keimreaktionen auf Antibiotikagruppen

Keimreaktionen auf Antibiotikagruppen Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen

Mehr

Sudoku-Informatik oder wie man als Informatiker Logikrätsel löst

Sudoku-Informatik oder wie man als Informatiker Logikrätsel löst Sudoku-Informatik oder wie man als Informatiker Logikrätsel löst Peter Becker Hochschule Bonn-Rhein-Sieg Fachbereich Informatik peter.becker@h-brs.de Kurzvorlesung am Studieninformationstag, 13.05.2009

Mehr

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister Quantitative Auswertung II Korpuslinguistik Heike Zinsmeister 16.12.2011 Unterschiedstest Fall 1: unabhängige Stichproben Daten eine unabhängige Variable auf Nominal- oder Kategorialniveau eine abhängige

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Prof. Dr. phil. Dr. rer. nat. habil. M.Schenke Vorlesung Maschinelles Lernen Basierend auf der Vorlesung und dem Buch»Methoden wissensbasierter Systeme«von Christoph Beierle und Gabriele Kern-Isberner

Mehr

Kapitel 28 Clusteranalyse 28.1 Einführung

Kapitel 28 Clusteranalyse 28.1 Einführung Kapitel 28 Clusteranalyse 28.1 Einführung Die Clusteranalyse dient dazu, eine Menge von Objekten derart in Gruppen (Cluster) zu unterteilen, daß die derselben Gruppe zugeordneten Objekte eine möglichst

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

Bildverarbeitung Herbstsemester. Mustererkennung

Bildverarbeitung Herbstsemester. Mustererkennung Bildverarbeitung Herbstsemester Herbstsemester 2009 2012 Mustererkennung 1 Inhalt Einführung Mustererkennung in Grauwertbildern Ähnlichkeitsmasse Normalisierte Korrelation Korrelationskoeffizient Mustererkennung

Mehr

HUMBOLDT-UNIVERSITÄT ZU BERLIN

HUMBOLDT-UNIVERSITÄT ZU BERLIN HUMBOLDT-UNIVERSITÄT ZU BERLIN WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT INSTITUT FÜR STATISTIK UND ÖKONOMETRIE LADISLAUS VON BORTKIEWICZ LEHRSTUHL FÜR STATISTIK Humboldt-Universität Wirtschaftswissenschaftliche

Mehr