Mathematisch-Statistische Verfahren des Risiko-Managements - SS
|
|
- Axel Bach
- vor 6 Jahren
- Abrufe
Transkript
1 Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer Verfahren angesehen, mit deren Hilfe eine Menge von Objekten zu homogenen Teilmengen bzw. Klassen oder Cluster gruppiert werden kann. Synonym zum Begriff der Clusteranalyse sind die Begriffe numerische Taxonomie oder multivariate Klassifikationsanalyse. Die Klassenbildung erfolgt dabei so, daß Objekte mit möglichst ähnlichen Eigenschaften zusammengefaßt und "unähnliche" Objekte voneinander separiert, also unterschiedlichen Klassen zugeordnet werden. Mathematisch-Statistische Verfahren des Risiko-Managements - SS
2 Allgemeine Beschreibung (II) Eine Klasse bzw. ein Cluster stellt hierbei das Element einer Partition bzw. einer Zerlegung dar, wobei eine Partition bei klassischen Clusterverfahren durch die nachstehenden Bedingungen charakterisiert werden kann: P z P h = für alle z, h =,,c ; z h P z für alle z =,,c c UPz = E, wobei E die Grundgesamtheit ist. z= Diese Bedingungen stellen sicher, daß die Cluster paarweise disjunkt, jedes Cluster mindestens ein Element enthält und jedes Objekt einem Cluster zugeordnet sein muß. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Ablaufschema einer Partition (I) Mathematisch-Statistische Verfahren des Risiko-Managements - SS
3 Ablaufschema einer Partition (II) Die Qualität der Endpartition hängt in starkem Maße von der Merkmalselektion ab und ist daher sorgfältig durchzuführen. Weiterhin sollte die Zahl der Merkmale nicht zu groß sein, da sonst davon auszugehen ist, daß einige davon miteinander korreliert sind. Der Anwender hat dann für jedes Objekt die Ausprägungen der Merkmale zu quantifizieren; sie werden durch m ij symbolisiert. Datenmatrix M m m M = 2l M mn M2 m2 m22 M mn2 L M... Mf mf m2f M m nf O O2 M On Merkmale Objekt Objekt n Objekt n Mathematisch-Statistische Verfahren des Risiko-Managements - SS Proximitätsmaße (I) Im nächsten Schritt ist für jedes Objektpaar und ein Ähnlichkeitsoder Distanzwert zu ermitteln, der unter Einbeziehung sämtlicher relevanter Merkmale dessen Ähnlichkeit bzw. Verschiedenheit repräsentiert. Ähnlichkeits- und Distanzwerte werden mittels reellwertigen Funktionen berechnet, die den Merkmalsausprägungen m kj und m lj der Objekte O k und O l eine reelle Zahl zuordnen: Ähnlichkeitsfunktion skl = s( mk, ml) Distanzfunktion dkl = d( mk, ml) Mit mi = (m i,mi2, K,m if )' Zumeist wird mit Distanzfunktionen gearbeitet. Mathematisch-Statistische Verfahren des Risiko-Managements - SS
4 Proximitätsmaße (II) Distanzen Bedingungen für Distanzen: d kl = d lk d kk = 0 d kl 0 d kl dkr + drl Die erste Bedingung sichert die Symmetrie der Distanzen zwischen zwei Objekten. Mit der Dreiecks-Ungleichung erfüllt das Distanzmaß die Eigenschaft einer Metrik. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Proximitätsmaße (III) Distanzmaße f L q -Distanz (Minkowski-Metrik) d = q kl [ mkj mlj ] q j= f dkl = mkj mlj L -Distanz (City-Block-Metrik) j= f L 2 -Distanz (Euklidsche Metrik) d = 2 kl [ (mkj mlj) ] 2 j= L ( mk, ml) = Max mkj mlj, L -Distanz (Chebychev-Metrik) j Bei der Verwendung der Distanzen sind darauf zu achten, dass die Merkmale oft von unterschiedlicher Wichtigkeit sind und verschiedene Maßstäbe aufweisen. Sie sollten daher auf einen einheitliche Skala transformiert f und gewichtet werden, z.b. d = 2 2 kl [ gj(mkj mlj) ] j= Mathematisch-Statistische Verfahren des Risiko-Managements - SS
5 Proximitätsmaße (IV) Mahalanobis-Distanz Da sowohl das Gewichten der Merkmale als auch die Angleichung der unterschiedlichen Maßstäbe nur nach subjektiven Kriterien erfolgen kann, können die Ergebnisse der Clusteranalyse durch die Festlegung der Gewichte vom Anwender manipuliert werden. Auf der anderen Seite ist davon auszugehen, daß ein Nutzer der Clusteranalyse im Regelfall kein Interesse daran haben wird, Ergebnisse bewußt zu verzerren. Da Gewichtungen durch korrelierte Merkmale verstärkt bzw. abgeschwächt werden können und es so zu Verzerrungen der Gruppierungsergebnisse kommen kann, empfiehlt sich die Verwendung der Mahalanobis-Distanz d (m,m ) [(m m ) T 2 kj lj = kj lj (mkj mlj)] wobei K K K die Inverse der Kovarianzmatrix der Variablen ist. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Proximitätsmaße (V) Distanzmatrix Eine direkte Ermittlung von Proximitäten zwischen Objekten ist grundsätzlich nur bei metrisch skalierten Merkmalen möglich, es existieren aber Hilfskonstruktionen, um auch mit ordinal skalierten oder nominal skalierten Attributen arbeiten zu können. Hat man sich für ein Proximitätsmaß entschieden, so ist die Datenmatrix M in eine Distanzmatrix D zu überführen: O O 2... O n d d2... dn = d2 d22... d D 2n M M M M dn dn2... dnn O O2 On Mathematisch-Statistische Verfahren des Risiko-Managements - SS
6 Clusterverfahren(I) Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Clusterverfahren (II) Hierarchische Clusterverfahren Ausgangspunkt divisiver Verfahren ist ein Gesamtcluster, das alle Elemente enthält. Im Verlaufe des Verfahrens werden die Elemente dieses Clusters schrittweise in kleinere Cluster zerlegt. Divisive Verfahren führen im Vergleich zu agglomerativen Varianten i.d.r. zu schlechteren Ergebnissen und sind rechenzeitaufwendiger und daher in der Praxis kaum von Bedeutung. Bei agglomerativen Algorithmen geht man davon aus, daß jedes Objekt anfangs einen Cluster bildet. Diese Anfangspartition wird dann schrittweise modifiziert, indem die Cluster sukzessiv zu größeren Aggregaten zusammengefaßt werden. Mathematisch-Statistische Verfahren des Risiko-Managements - SS
7 Clusterverfahren (III) Agglomerative Algorithmen Verfahrensablauf Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusterverfahren (IV) WARD-Verfahren () Beim Ward-Verfahren werden die zu fusionierenden Cluster durch die Intraclustervarianzen determiniert. Für alle Cluster P z, z=,..., c sind daher zunächst die Clustercentroide, also die Vektoren der Mittelwerte aller Merkmalsausprägungen der Clusterelemente zu berechnen: uz = m n i z O i P z n z symbolisiert hierbei die Anzahl der Objekte des Clusters P z. Diese Centroide sind imaginäre Objekte, die die entsprechenden Objektklassen repräsentieren. Sie werden zur Ermittlung der Summe der Clustervarianzen aller Klassen benötigt: c w(p) = m 2 i uz z= O P i z Mathematisch-Statistische Verfahren des Risiko-Managements - SS
8 Clusterverfahren (V) WARD-Verfahren (2) Man agglomeriert dann jene Cluster, die zu einem minimalen Anstieg der Gesamtvarianz führen. Der Zuwachs der Gesamtvarianz w, der sich bei der Fusion zweier Cluster P k und P l ergibt, läßt sich berechnen als: nkn w(p l 2 k, P l) = ul uk nk + nl Im nächsten Iterationszyklus wird wieder die Gesamtvarianz als Summe der Intraclustervarianzen berechnet und jenes Clusterpaar fusioniert, das zum geringsten Zuwachs der Gesamtvarianz führt. Der Iterationszyklus solange durchlaufen, bis alle Cluster zu einer einzigen Klasse fusioniert sind. Die Klassenanzahl ist nachträglich zu fixieren. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusterverfahren (VI) Dendogramm Mathematisch-Statistische Verfahren des Risiko-Managements - SS
9 Clusterverfahren (VII) Partionierende Verfahren Da bei hierarchisch-agglomerativen Verfahren einmal konstruierte Cluster nicht wieder aufgelöst werden können, muss im Verlaufe des Iterationsprozesses mit Suboptimalitäten gerechnet werden. Deshalb lassen sich die Resultate hierarchisch-agglomerativer Varianten i.d.r. durch partitionierende Verfahren verbessern. Diese Varianten der Clusteranalyse setzen eine Anfangspartition voraus und stellen keine Alternative zu hierarchischen Verfahren dar, sondern sind als Ergänzung bzw. Erweiterung anzusehen. Zu den gebräuchlichsten Varianten zählen die Austausch-Verfahren und die iterativen Minimal-Distanz-Verfahren. Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusterverfahren (VIII) Austausch-Verfahren Nach der Ermittlung einer Anfangspartition mit c Clustern wird ein Element aus einem Cluster entfernt und einem anderen zugefügt. Daraufhin ist für die betreffenden Cluster ein benutzerdefiniertes Gütekriterium, z.b. ein Homogenitäts- bzw. Heterogenitätsmaß, neu zu berechnen. Anschließend wird das Element nach und nach den verbleibenden c-2 Clustern zugefügt und die Berechnung der jeweiligen Gütekriterien durchgeführt. Schließlich wird jene Partition übernommen, die zur größten Verbesserung führt. Das Verfahren endet, wenn alle Elemente überprüft sind. Die ermittelte Lösung konvergiert dabei gegen ein lokales Optimum. Da nur ein Objekt pro Iterationsschritt ausgetauscht wird, stellt dieses jedoch i.d.r. kein globales Optimum dar. Mathematisch-Statistische Verfahren des Risiko-Managements - SS
10 Spezielle Standards für Clusterverfahren Welche Clusterverfahren kommen zum Einsatz? Welches Proximitätsmaß wird verwendet? Werden nur metrisch skalierte Merkmale benutzt bzw. wie werden ordinal skalierte Merkmale umgerechnet? Wieviele Cluster werden gebildet und wie werden diese den Ratingklassen zugeordnet? Wie erfolgt die Zuordnung von Brückenelementen? Kommen dabei Fuzzy-Verfahren zum Einsatz? Mathematisch-Statistische Verfahren des Risiko-Managements - SS
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrWas ist eine Clusteranalyse, wann und wie wird sie angewendet?
Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrSeminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
MehrI. II. I. II. III. IV. I. II. III. I. II. III. IV. I. II. III. IV. V. I. II. III. IV. V. VI. I. II. I. II. III. I. II. I. II. I. II. I. II. III. I. II. III. IV. V. VI. VII. VIII.
MehrEntscheidungsbaumverfahren
Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrClustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
MehrClusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel
Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation
MehrMultivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
MehrProseminar: Web-Performance
Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können
MehrVisualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten
Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht
MehrHierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
MehrAllgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)
Allgemeine diskrete Wahrscheinlichkeitsräume I Allgemeine diskrete Wahrscheinlichkeitsräume II Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete Wahrscheinlichkeitsräume Ω endlich
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
MehrMultivariate Statistische Methoden und ihre Anwendung
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Mehr4 Greedy-Algorithmen (gierige Algorithmen)
Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine
Mehr35 Stetige lineare Abbildungen
171 35 Stetige lineare Abbildungen Lernziele: Konzepte: Lineare Operatoren und ihre Normen Resultate: Abschätzungen für Matrizennormen Kompetenzen: Abschätzung von Operatornormen 35.1 Lineare Abbildungen.
Mehr4.3 Hierarchische Klassifikationsverfahren
4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen
MehrSeminar zum Thema Künstliche Intelligenz: Clusteranalyse
Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
MehrEinführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
Mehr3. Das Gleichungssystem
Lagerung: Damit das Fachwerk Kräfte aufnehmen kann, muss es gelagert werden, Die Lagerung muss so beschaffen sein, dass keine Starrkörperbewegungen oder Mechanismen mehr möglich sind. Die Verschiebungen
MehrAlgebra und Diskrete Mathematik, PS3. Sommersemester Prüfungsfragen
Algebra und Diskrete Mathematik, PS3 Sommersemester 2016 Prüfungsfragen Erläutern Sie die Sätze über die Division mit Rest für ganze Zahlen und für Polynome (mit Koeffizienten in einem Körper). Wodurch
MehrLage- und Streuungsparameter
Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch
Mehr1 Fraktale Eigenschaften der Koch-Kurve
Anhang Inhaltsverzeichnis Fraktale Eigenschaften der Koch-Kurve iii. Einführung.................................. iii.2 Defintion.................................... iii.3 Gesamtlänge der Koch-Kurve........................
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and
MehrWISTA WIRTSCHAFTSSTATISTIK
WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 23042013 Datenlagen und Darstellung eindimensionaler Häufigkeitsverteilungen
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrEinführung in das Data Mining Clustering / Clusteranalyse
Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten
MehrADS: Algorithmen und Datenstrukturen 2
ADS: Algorithmen und Datenstrukturen Der Tragödie IV. Theyl Peter F. Stadler & Konstantin Klemm Bioinformatics Group, Dept. of Computer Science & Interdisciplinary Center for Bioinformatics, University
Mehr3. Deskriptive Statistik
3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht
MehrKlausur Strategisches Marketing und Internationales Marketing WS 2013/14 1
Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1 Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 Gesamtpunktzahl: 120 Aufgabe 1: Informationsgrundlagen
MehrStudent: Alexander Carls Matrikelnummer: Aufgabe: Beschreibung des euklidischen Algorithmus Datum:
Berufsakademie Stuttgart / Außenstelle Horb Studienbereich Technik Studiengang Informationstechnik Kurs IT2006, 2.Semester Dozent: Olaf Herden Student: Alexander Carls Matrikelnummer: 166270 Aufgabe: Beschreibung
MehrStatistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen
Jürgen Bortz Statistik Für Sozialwissenschaftler Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Springer-Verlag Berlin Heidelberg Newlfork London Paris Tokyo Inhaltsverzeichnis Einleitung
MehrStatistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
Mehr8. Clusterbildung, Klassifikation und Mustererkennung
8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion
MehrKapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit
Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren
MehrDatamining Ein kleiner Einblick
Datamining Ein kleiner Einblick Autoren: Boris Kulig u. Bertram Schäfer Inhaltsverzeichnis 1 Begriff, Funktion, Verfahren 1 2 Clusteranalyse 1 2.1 Proximitätsmaße 3 2.1.1 Nominal-Skala 3 2.1.2 Metrische
MehrR-Baum R + -Baum X-Baum M-Baum
R-Baum und Varianten R-Baum R + -Baum X-Baum M-Baum staab@uni-koblenz.de 1 R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum
Mehr3. Leistungsdichtespektren
Stochastische Prozesse: 3. Leistungsdichtespektren Wird das gleiche Geräusch mehrmals gemessen, so ergeben sich in der Regel unterschiedliche zeitliche Verläufe des Schalldrucks. Bei Geräuschen handelt
MehrKorrespondenzanalyse
Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung
MehrKlausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min
Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe
MehrAnnahme: - Päferenzunabhängigkeit der Ziele - kardinal skalierte Größen!!!!
Prof. Dr. H. Rommelfanger: Entscheidungstheorie, Kapitel 4 4.4 Nutzwertanalyse Verfahren zur Lösung von Mehrzielentscheidungen Hierarchisch aufgebaute systeme å i.d.r. sind nur zwei oder drei Teilziele
MehrModulklausur Multivariate Verfahren
Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur
MehrDPF Dynamic Partial distance Function
DPF Dynamic Partial distance Function Vorgelegt von Sebastian Loose (MatrikelNR.: 169172), Computervisualistikstudent im 4. Semester. Hausarbeit zum Papier DPF A Perceptual Distance Function for Image
MehrFragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
MehrKeimreaktionen auf Antibiotikagruppen
Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen
MehrData Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
MehrP (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.
2 Wahrscheinlichkeitstheorie Beispiel. Wie wahrscheinlich ist es, eine Zwei oder eine Drei gewürfelt zu haben, wenn wir schon wissen, dass wir eine ungerade Zahl gewürfelt haben? Dann ist Ereignis A das
MehrGrundlagen der Datenanalyse
Schematischer Überblick zur Behandlung quantitativer Daten Theorie und Modellbildung Untersuchungsdesign Codierung / Datenübertragung (Erstellung einer Datenmatrix) Datenerhebung Fehlerkontrolle / -behebung
Mehr9 Konvergenz und absolute Konvergenz von Reihen
9 Konvergenz und absolute Konvergenz von Reihen 9.2 Konvergenz von Reihen 9.5 Monotoniekriterium für Reihen 9.6 Konvergenzkriterium von Cauchy für Reihen 9.9 Rechenregeln für konvergente Reihen 9.10 Absolute
MehrStatistische Randnotizen
Landkreis /Weser Februar 08 Stabsstelle Regionalentwicklung Az.: 12.01.20 Statistische Randnotizen Geburtenziffern im Landkreis /Weser und den anderen Kreisen im Bezirk Hannover Einleitung Kenntnis über
MehrGrundlagen der Statistik
Grundlagen der Statistik Übung 2 2010 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den Übungsaufgaben geprüften Lehrzielgruppen Lehrzielgruppe
MehrSind die nachfolgenden Aussagen richtig oder falsch? (0,5 Punkte pro korrekter Beantwortung)
PROBEKLAUSUR STATISTIK Berufsbegleitender Studiengang Betriebswirtschaftslehre Sommersemester 2016 Aufgabenteil I: Theorie (5 Punkte) Sind die nachfolgenden Aussagen richtig oder falsch? (0,5 Punkte pro
MehrProbleme und Möglichkeiten der Behandlung der bedingten Wahrscheinlichkeit
Hans-Dieter Sill, Universität Rostock Probleme und Möglichkeiten der Behandlung der bedingten Wahrscheinlichkeit 1. Der Begriff der bedingte Wahrscheinlichkeit in Planungsdokumenten 2. Eine Prozessbetrachtung
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 29.01.2009 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Fourier-Transformation
MehrA2.3 Lineare Gleichungssysteme
A2.3 Lineare Gleichungssysteme Schnittpunkte von Graphen Bereits weiter oben wurden die Schnittpunkte von Funktionsgraphen mit den Koordinatenachsen besprochen. Wenn sich zwei Geraden schneiden, dann müssen
MehrVorlesung 3 MINIMALE SPANNBÄUME
Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei
MehrGewichtung in der Umfragepraxis. Von Tobias Hentze
Gewichtung in der Umfragepraxis Von Tobias Hentze Gliederung 1. Einführung 2. Gewichtungsarten 1. Designgewichtung 2. Non-Response-Gewichtung 3. Zellgewichtung 3. Fazit Gewichtung Definition: Ein Gewicht
Mehr5. Fourier-Transformation
Fragestellungen: 5. Fourier-Transformation Bei Anregung mit einer harmonischen Last kann quasistatitisch gerechnet werden, wenn die Erregerfrequenz kleiner als etwa 30% der Resonanzfrequenz ist. Wann darf
MehrStatistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)
Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche
MehrGegeben: Eine Menge von Objekten mit Merkmalen (beobachtet oder gemessen) Die gegebene Menge heißt auch Grundgesamtheit.
Kapitel 1 Beschreibende Statistik Gegeben: Eine Menge von Objekten mit Merkmalen (beobachtet oder gemessen) Gesucht: Übersichtliche Beschreibung Die gegebene Menge heißt auch Grundgesamtheit. Beispiele
MehrKorrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS.
Korrespondenzanalyse Theoretische Grundlagen und die Anwendung in SPSS. Ein Vortrag von Jana Bombik, Erdmute Jahn, Claudia Philipp und Helge Siems an der Hochschule Harz im Rahmen der Vertiefungsrichtung
MehrMultivariate Statistik
Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)
MehrComputational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
MehrStatistische Grundlagen I
Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.
MehrInhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16
Vorwort 1 1. Kapitel: Der Stellenwert der Statistik für die sozialwissenschaflliche Forschung 1 1. Zur Logik (sozial-)wissenschaftlicher Forschung 1 1. Alltagswissen und wissenschaftliches Wissen 1 2.
MehrStudiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel
Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?
MehrSTATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)
WS 07/08-1 STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich) Nur die erlernbaren Fakten, keine Hintergrundinfos über empirische Forschung etc. (und ich übernehme keine Garantie) Bei der Auswertung von
MehrDaten, Datentypen, Skalen
Bildung kommt von Bildschirm und nicht von Buch, sonst hieße es ja Buchung. Daten, Datentypen, Skalen [main types of data; levels of measurement] Die Umsetzung sozialwissenschaftlicher Forschungsvorhaben
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
MehrGrundlagen clusteranalytischer Verfahren
Grundlagen clusteranalytischer Verfahren Institut für Soziologie - Universität Duisburg-Essen Prof. Petra Stein - Sven Vollnhals 1. April 2011 Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen der Clusteranalyse
MehrExplorative Faktorenanalyse
Explorative Faktorenanalyse 1 Einsatz der Faktorenanalyse Verfahren zur Datenreduktion Analyse von Datenstrukturen 2 -Ich finde es langweilig, mich immer mit den selben Leuten zu treffen -In der Beziehung
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrLineare Algebra und analytische Geometrie I (Unterrichtsfach) Lösungsvorschlag
MATHEMATISCHES INSTITUT DER UNIVERSITÄT MÜNCHEN Dr E Schörner WS / Blatt 6 Übungen zur Vorlesung Lineare Algebra und analytische Geometrie I (Unterrichtsfach) Lösungsvorschlag Wir verwenden das Unterraumkriterium,
MehrAnalytische Statistik II
Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Das Testen von Hypothesen Während die deskriptive Statistik die Stichproben nur mit Hilfe quantitativer Angaben charakterisiert,
MehrWS 2008/09. Diskrete Strukturen
WS 2008/09 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0809
MehrBeispiel 11.2. Wenn p ein Polynom vom Grad größer gleich 1 ist, ist q : C Ĉ definiert durch q (z) =
Funktionentheorie, Woche Funktionen und Polstellen. Meromorphe Funktionen Definition.. Sei U C offen und sei f : U gilt, nennt man f meromorph auf U: Ĉ eine Funktion. Wenn folgendes. P := f hat keine Häufungspunkte;.
MehrZusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen
- nominal, ordinal, metrisch In SPSS: - Einfache -> Mittelwerte vergleichen -> Einfaktorielle - Mehrfaktorielle -> Allgemeines lineares Modell -> Univariat In SPSS: -> Nichtparametrische Tests -> K unabhängige
MehrKapitel 5 KONVERGENZ
Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz
MehrEs können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.
Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrVorlesung. Mathematische Statistik für Studierende. der Hydrologie und Abfallwissenschaften
Vorlesung Dr. Wiltrud Kuhlisch Frühjahr 2015 TU Dresden, Institut für Mathematische Stochastik 1 Einführung 1.1 Literatur Mathematische Statistik für Studierende der Hydrologie und Abfallwissenschaften
MehrAlgorithmen und Datenstrukturen 1 Kapitel 3
Algorithmen und Datenstrukturen 1 Kapitel 3 Technische Fakultät robert@techfak.uni-bielefeld.de Vorlesung, U. Bielefeld, Winter 2005/2006 3.6 Dynamische Programmierung Die rekursive Problemzerlegung kann
Mehr9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T
9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon
MehrKapitel 27 Distanz- und Ähnlichkeitsmaße
Kapitel 7 Distanz- und Ähnlichkeitsmaße 7.1 Einführung Sowohl Distanz- als auch Ähnlichkeitsmaße dienen dazu, die Ähnlichkeit verschiedener Fälle oder Variablen zu quantifizieren. Beide Maße untersuchen,
MehrLösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1
LÖSUNG 2C a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Bei HHEINK handelt es sich um eine metrische Variable. Bei den Analysen sollen Extremwerte ausgeschlossen werden. Man sollte
MehrFachrechnen für Tierpfleger
Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:
MehrGewichtung und Validierung der Nettostichprobe (Welle 1 des Projekts Lebensziele und Lebensverläufe in Ostdeutschland )
Gewichtung und Validierung der Nettostichprobe (Welle 1 des Projekts Lebensziele und Lebensverläufe in Ostdeutschland ) Gewichtung Da es sich bei dieser Studie um eine Einwohnermeldeamtsstudie handelt,
MehrPlanen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher
Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse
MehrEinführung in die Cluster-Analyse mit SAS
Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse
MehrStatistische Tests zu ausgewählten Problemen
Einführung in die statistische Testtheorie Statistische Tests zu ausgewählten Problemen Teil 4: Nichtparametrische Tests Statistische Testtheorie IV Einführung Beschränkung auf nichtparametrische Testverfahren
Mehr