Keimreaktionen auf Antibiotikagruppen

Größe: px
Ab Seite anzeigen:

Download "Keimreaktionen auf Antibiotikagruppen"

Transkript

1 Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen von E. Coli Bakterien aus Gülleproben steirischer Schweinezuchtbetriebe sowie aus Wasserproben bezüglich ihrer Resistenz gegenüber dieser Antibiotika beobachtet. Auf sämtliche Antibiotika in einer gefundenen Gruppe sollen die Keime so ähnlich wie möglich reagieren. Verschiedene Strategien und Methoden der Clusteranalyse werden deshalb angewendet, wobei überraschenderweise die Verfahren zwar jeweils ähnliche Ergebnisse ergeben, diese sich jedoch für die beiden Datensätze unterscheiden. 1 Einleitung Im Zuge einer Studie am Hygieneinstitut der Karl-Franzens Universität in Graz, werden die Resistenzen von E. Coli Bakterien auf diverse Antibiotika beobachtet. Diese Keime wurden hierbei aus Gülleproben isoliert, die von steirischen Schweinezuchtbetrieben aus verschiedenen Produktionszweigen stammen. Jeweils eine Gülleprobe wurde für jeden Produktionszweig in einem Betrieb entnommen. Aus jeder Probe wurden dann E. Coli Bakterien isoliert und deren Reaktion auf die folgenden 24 Antibiotika getestet. β-lactam Anibiotika: dazu zählen Penicilline: Ampicillin (), Amoxicillin + Clavulansäure (C), Piperacillin (PIP), Piperacillin + Tazobactam (PT); Institut für Statistik, Technische Universität Graz, Steyrergasse 17, A-8010 Graz 1

2 Cephalosporine: Cefalothin (), Cefuroxim (CXM), Cefuroxim-Axetil (CXMAX), Cefoxitin (FOX), Cefpodoxime (CPD), Cefepim (FEP), Cefotaxim (CTX), Ceftazidim (CAZ); Carbapeneme: Meropenem (MEM); Aminoglycoside: Gentamicin (GM), Tobramycin (TM), Amikacin (AN); Chinolone: Nalidixinsäure (NA), Norfloxacin (NOR), Ciprofloxacin (CIP), Ofloxacin (OFL); Andere: Tetracyclin (), Co-Trimazol (), Nitrofurantoin (FT), Chloramphenicol (C). Falls genügend Keime isoliert werden konnten, wurde die Reaktion von bis zu zehn verschiedenen Keimen aus derselben Probe auf ein und dasselbe Antibiotikum beobachtet. Die vorliegenden Daten beinhalten somit je Probe jeweils 24 beobachtete relative Resistenz-Häufigkeiten. Von Interesse ist nun die Untersuchung, ob sich die Keime ähnlich verhalten in deren Reaktion auf einzelne Antibiotika, d.h. ob die E. Coli Bakterien entweder darauf jeweils resistent oder nicht resistent reagieren. Man ist also an einer Gruppierung der Antibiotika interessiert, wobei sich die Keime auf Antibiotika in einer derartigen Gruppe möglichst gleich verhalten sollen. Die Gruppen müssen in sich homogen sein, sich aber zueinander heterogen verhalten. Aus diesem Grund werden Methoden der Clusteranalyse als Verfahren zum Auffinden derartiger Strukturen eingesetzt. Diese sind rein deskriptiv und dienen zur Erkennung derartiger Gruppierungen in multivariaten Daten. Nach einer Einführung in die Verfahren der Clusteranalyse im zweiten Kapitel werden im dritten Kapitel die Prinzipien jener Algorithmen dargestellt, welche die Programm-Bibliothek cluster unter R anbietet. Im vierten und fünften Kapitel erfolgt dann das Auffinden und die Analyse von Antibiotika-Cluster mittels dieser Algorithmen für die beiden Datensätze. 2 Clusteranalyse Unter Clusteranalyse versteht man ein Verfahren zur Einteilung von n Objekten in K n homogene Gruppen. Diese Einteilung wird oft als Klassifikation oder Clustering bezeichnet. Die durch eine Anzahl von Variablen beschriebenen Objekte sollen sich innerhalb einer Gruppe möglichst ähnlich verhalten. Im Gegensatz dazu sollten sich Objekte aus unterschiedlichen Gruppen möglichst verschieden verhalten. Derartige Gruppen nennt man auch Cluster oder Klassen. Jede dieser Gruppen enthält mindestens ein Objekt. 2

3 Je nach Zielsetzung einer Clusteranalyse unterscheiden Hartung & Elpelt (1986) als Typen einer Klassifikation die Überdeckung, die Partition, die Quasihierarchie und die Hierarchie. Von einer Überdeckung spricht man, wenn sich einzelne Klassen überschneiden dürfen (gemeinsame Objekte enthalten können), jedoch keine Klasse vollständig in einer anderen enthalten ist. Die Partition ist eine spezielle Überdeckung, bei der verlangt wird, dass kein Objekt zu mehr als einer Klasse gehört. Hier sind also Klassenüberschneidungen nicht zulässig, d.h. die Klassen einer Partition sind disjunkt. Die Quasihierarchie ist wiederum eine Klassifikation, welche durch eine Folge von Überdeckungen gebildet wird. Innerhalb einer Stufe sind die Klassen einer Quasihierarchie derart aufgebaut, dass sie sich zwar überlappen können, jedoch eine Klasse nicht gänzlich in einer anderen enthalten sein darf. Über die Stufen hinweg sind aber Klassen notwendigerweise ineinander enthalten. Eindeutig charakterisieren lässt sich eine Quasihierarchie nur durch Angabe der Überdeckungen auf den einzelnen Stufen oder graphisch durch die Angabe eines Stammbaums. Die Hierarchie ist eine Folge von Partitionen und somit eine spezielle Quasihierarchie. Auch Hierarchien lassen sich eindeutig durch Angabe der Partitionen auf den einzelnen Stufen charakterisieren und in Form eines Stammbaums oder in Form eines Dendrogramms veranschaulichen. Unabhängig von der gewählten Klassifikation muss noch entschieden werden, ob alle n Objekte klassifiziert werden soll. Hartung & Elpelt (1986) sprechen von einer exhaustiven (erschöpfenden) Klassifikation, falls jedes Objekt klassifiziert wird, ansonsten von einer nichtexhaustiven Klassifikation. 2.1 Ähnlichkeitsmaße Bei der Clusteranalyse möchte man eine große Homogenität innerhalb jeder Klasse und eine starke Heterogenität zwischen diesen Klassen erzielen. Sämtliche Objekte in einer Klasse sollen sich also möglichst gleichartig verhalten und die einzelnen Klassen sollen möglichst unterschiedlich sein. Daher liegt es nahe, die Güte einer gefundenen Klassifikation von der Homogenität ihrer Klassen und/oder der Heterogenität unter den Klassen abhängig zu machen. Um aber die Homogenität und die Heterogenität beschreiben zu können, benötigt man zuerst den Begriff der Distanz zweier Objekte oder zweier Klassen. Man geht von einer n p Datenmatrix X aus mit n Zeilen (Objekte) und p Spalten (Variablen). Bezeichnet x ij die j-te Variable des i-ten Objekts, für i = 1,..., n 3

4 und j = 1,..., p, so ist X definiert als x 11 x 1j x 1p... X = x i1 x ij x ip... x n1 x nj x np. (1) Zuerst ist es sinnvoll, eine Distanz für jedes Paar von Objekten i und i, i i, zu definieren. Die bekannteste Distanz ist die Euklidische Distanz, definiert durch p d(i, i ) = (x ij x i j) 2. j=1 Ein weiteres Distanzmaß ist die City Block Metrik, oder auch Manhattan Distanz genannt, p d(i, i ) = x ij x i j. j=1 Darüberhinaus kann man auch den Tschebyscheff Abstand oder die Mahalanobisdistanz verwenden. Um die Verschiedenheit zweier Objekte zu beschreiben, können nicht nur Distanzmaße sondern auch andere Koeffizienten eingesetzt werden. Im Gegensatz zu Distanzmaßen erfüllen derartige Verschiedenheitsmaße nicht die Dreiecksungleichung. Der Einfachheit halber, wollen wir jedoch diese Maße auch als Distanz bezeichnen. Mit den obigen Distanzmaßen lässt sich zu einer Datenmatrix X eine n n Distanzmatrix D berechnen, die als Einträge die Distanzen d(i, i ) enthält. 2.2 Homogenitätsmaße Ausgehend von Distanzen kann ein Maß h(c k ) für die Homogenität der Objekte in der k-ten Klasse C k, k = 1,..., K, berechnet werden. Dieses ist nicht-negativ und umso kleiner, je homogener diese Objekte sind. Eine Möglichkeit der Bewertung der Homogenität besteht darin, die Summe der Distanzen zwischen allen Paaren von Objekten in C k zu berechnen und diese dann eventuell noch zu normieren, d.h. man betrachtet h(c k ) = 1 n k i<i :(i,i ) C k d(i, i ), mit der Normierungskonstante n k. Dafür könnte man beispielsweise die Anzahl C k der zur k-ten Klasse gehörenden Objekte oder auch C k ( C k 1) wählen. 4

5 Ein alternatives Maß für die Klassenhomogenität wäre auch h(c k ) = max d(i, i ), (i,i ) C k also die Distanz der beiden unähnlichsten Objekte in der Klasse C k. Dies ist natürlich ein sehr strenges Maß für die Homogenität, das zudem die Homogenität großer Klassen verhältnismäßig schlecht beurteilt. Diesen Nachteil vermeidet h(c k ) = min d(i, i ). (i,i ) C k Hier kann es jedoch andererseits wiederum leicht passieren, dass große Klassen trotz relativ kleinem Wert von h(c k ) recht heterogen sind. Es gibt noch viele weitere Homogenitätsmaße, die zum Beispiel die Varianzen der p beobachteten Merkmale in der Klasse C k oder auch die Korrelation dieser Merkmale zusätzlich berücksichtigen. 2.3 Heterogenitätsmaße Ein Maß v(c k, C k ) für die Heterogenität (Verschiedenheit) zweier Klassen soll auch nur nicht-negative Werte aufweisen und derartig gestaltet sein, dass es umso kleiner ist, je ähnlicher sich die Klassen C k und C k sind. Außerdem wird man generell wie schon für Distanzen auch hierfür fordern, dass v(c k, C k ) = 0 und v(c k, C k ) = v(c k, C k ) gilt. Geht man von Distanzen aus, so lässt sich die Heterogenität zweier disjunkter Klassen C k und C k zum Beispiel in folgender Weise beschreiben v(c k, C k ) = max d(i, i ) i C k,i C k d(i, i ) min i C k,i C k 1 C k C k i C k i C k d(i, i ) complete linkage, single linkage, average linkage. Hier wird die Heterogenität der Klassen (C k, C k ) auf Grund des unähnlichsten (complete linkage) oder des ähnlichsten Objektpaares (single linkage) gemessen, oder durch die durchschnittliche Ähnlichkeit der Objekte aus C k zu den Objekten in C k (average linkage) beschrieben. Ein weiteres Heterogenitätsmaß, das eine Datenmatrix in der Form (1) zu Grunde legt, ist das centroid-maß. Hier berechnet man den euklidischen Abstand zwischen den Mittelwertvektoren der p Merkmale aller Objekte in den Klassen C k und C k. (2) 5

6 2.4 Gütemaße Im Endeffekt wird man auch an der Güte der gefundenen Klassifikation selbst interessiert sein. Diese Gütemaße hängen natürlich vom Klassifikationstyp ab, können jedoch so gewählt werden, dass sie von den Homogenitäten der Klassen und/oder den Heterogenitäten zwischen den Klassen abhängen. So kann man die Güte einer Partition durch die Summe der Klassenhomogenitäten oder den normierter Kehrwert der Heterogenitäten beschreiben. Es gibt auch Maße die sowohl die Homogenität als auch die Heterogenität berücksichtigen. Die Gütebewertung von Hierarchien erfolgt nicht für die gesamte Klassifikation, sondern es wird hier jede Stufe des Zugrunde liegenden Stammbaums oder Dendrogrammes einzeln bewertet. Da jede Stufe einer Hierarchie eine Partition der Objektmenge bildet, lassen sich hierbei die zuvor angegebenen Gütemaße für Partitionen verwenden. 3 Clusteranalyse mit der R Bibliothek cluster Für das Statistik-Programm R wird zur Durchführung einer Clusteranalyse unter anderem die Bibliothek cluster zur Verfügung gestellt. Dieses Paket erlaubt die Verwendung von Verfahren, welche im Buch von Kaufman & Rousseeuw (1990) beinhaltet sind. Zu den darin implementierten Methoden zählt das Programm daisy mit dem man zu einer Datenmatrix eine Distanzmatrix berechnet. Weiters beinhaltet cluster drei Clusterverfahren für Partitionen (pam, clara und fanny) und drei Verfahren für Hierarchien (agnes, diana, mona). Zusätzlich enthält es Programme zur graphischen Aufbereitung der Ergebnisse (bannerplot, pltree, plot, clusplot) und Programme zur Berechnung von Gütemaßen der gefundenen Klassifikation (print, summary, silhouette). Clusterverfahren für Partitionen und für Hierarchien sind in der klassischen Literatur die am häufigsten verwendeten Algorithmen in der Clusteranalyse. Für R bieten die Bibliotheken mva und cclust zusätzlich noch weitere Clusteralgorithmen an, zu denen hclust, cclust und kmeans zählen. Diese Methoden sind jedoch etwas komplexer und werden daher hier nicht weiter diskutiert. 3.1 DAISY Bevor man eine Klassifikation konstruiert, benötigt man eine Distanzmatrix D(X) der Daten X. Diese wird mit daisy für verschiedene Meßniveaus der Variablen berechnet. Variablen vom Typ numeric werden als intervallskaliert angesehen. 6

7 Variablen vom Typ factor werden als nominalskaliert interpretiert und jene vom Typ ordered als ordinale Variablen. Hat man binäre oder verhältnisskalierte Variablen, kann man diese Information im Aufruf von daisy mittels type angeben. Mit metric kann man steuern, ob die euklidische oder die Manhattan Distanz verwendet werden soll. Diese Angabe ist nur bei intervallskalierten Daten möglich. Die Option stand ermöglicht noch zusätzlich die Standardisierung der Variablen vor der Berechnung deren Distanzen. Hier nun einige beispielhafte Anwendungen: D0 <- daisy(x, type = list(symm = c(1:3))) D1 <- daisy(x, metric = "euclidean", stand = FALSE) D2 <- daisy(x, metric = "manhattan") Die Prozedur daisy berechnet für intervallskalierte Variablen die euklidische oder die Manhattan Distanz. Ordinale Variablen werden durch deren Ränge ersetzt. Danach werden die Ränge standardisiert, d.h. es wird der Rang r ij der j-ten Variablen im i-ten Objekt ersetzt durch z ij = r ij 1 M j 1, mit M j = max i (r ij ), dem größten Rang der j-ten Variablen. Somit sind alle z ij auf (0, 1) standardisiert. Dies ist vor allem sinnvoll, wenn die Variablen verschieden große Werte M haben. Von diesen z ij wird dann die Manhattan Distanz berechnet, relativiert durch die Anzahl der Summanden. Bei verhältnisskalierten Variablen besteht auch die Möglichkeit, eine logarithmische Transformation durchzuführen und darauf die Manhattan Distanz zu berechnen. Will man dies beispielsweise auf die achte Spalte der Datenmatrix anwenden, so wird dies sehr einfach durch (type = list(logratio = 8) ermöglicht. Alternativ kann man diese auch wie ordinale Variablen behandeln und daisy berechnet dann mit type = list(ordratio = 8) dieselben Distanzen wie zuvor. Bei binären Variablen unterscheiden Kaufmann & Rousseeuw zwischen symmetrischen und asymmetrischen Variablen. Im ersten Fall ist das Eintreten der beiden Faktorstufen gleichwertig (z.b. männlich/weiblich). Bei asymmetrischen Variablen ist dies nicht mehr der Fall. Steht beispielsweise die Eins für starker Raucher und Null für einen beliebigen anderen Typ (Nichtraucher, Exraucher, schwacher Raucher), dann haben nur dann zwei Personen dasselbe Rauchverhalten, wenn beide eine Eins haben. Haben beide eine Null, so weist dies noch nicht auf das gleiche Verhalten hin. Zwei Einsen sind somit ähnlicher als zwei Nullen. 7

8 Hat man symmetrische binäre Variable (type = list(symm = 5)) berechnet R die Distanz als d(i, i n 10 ii ) = + n01 ii. n 11 ii + n 10 ii + n 00 ii + n 01 ii Hier beschreibt n 11 ii die Anzahl, wie viele Variablen j die Eigenschaft x ij = x i j = 1 aufweisen. Weiters ist n 00 ii die Anzahl an Variablen mit x ij = x i j = 0. Schließlich zählt n 10 ii (bzw. n01 ii ) die Häufigkeit von x ij = 1 und x i j = 0 (bzw. x ij = 0 und x i j = 1). Bei asymmetrischen binären Variablen (type = list(asymm = 5)) berechnet sich die Distanz durch d(i, i n 10 ii ) = + n01 ii. n 11 ii + n 10 ii + n 01 ii Hier wird die Anzahl n 00 ii weggelassen, da zwei Nullen bei asymmetrischen Variablen nicht eindeutig für das selbe Verhalten stehen. Ein typisches Beispiel für nominale Variablen ist die Augenfarbe von Personen. Am häufigsten werden die Distanzen dafür durch d(i, i ) = p u p beschrieben. Dabei bezeichnet u die Anzahl wie oft x ij = x i j gilt und p die Anzahl an Variablen in den Daten. Schließlich sei noch vermerkt, dass man mittels daisy auch Distanzen für Objekte mit Variablen verschiedenen Typs berechnen kann. Ein Beispiel dafür wäre type = list(asymm = c(1, 5), ordratio = 2, logratio = c(3, 4)) P Die Prozedur pam berechnet Partitionen. Jedes Cluster enthält zumindest ein Objekt und jedes Objekt muss genau einem Cluster zugeordnet werden. Bei diesen Verfahren muss die Anzahl K der gewünschten Cluster vom Anwender vorgegeben werden. Daher ist es sinnvoll dieses Verfahren für verschiedene Werte von K anzuwenden. Mit silhouette können dann entsprechende Gütemaße berechnet werden und man kann sich schlussendlich für die beste Klassifikation entscheiden. Auch wird man zusätzlich von diversen Graphiken für die Entscheidungshilfe Gebrauch machen. C <- pam(x, K, diss = FALSE, metric = "euclidean", stand = FALSE) plot(c); clusplot(c) 8

9 Der pam Algorithmus sucht zuerst nach K repräsentativen Objekten (auch medoids genannt), welche die Struktur der Daten bestmöglich wiederspiegeln. Daraufhin werden die restlichen n K Objekte ihren nächsten medoids zugeordnet. Danach wird so lange ein Objekt mit einem medoid ausgetauscht bis das Gütemaß minimal ist. Das heißt, man versucht durch Tausch eines repräsentativen Objekts mit einem beliebigen anderen Objekt eine Verbesserung der Güte der Klassifikation zu erreichen. Bezeichnet h(c k ) die Summe der Distanzen aller Objekte in C k zu deren repräsentativen Objekt, dann wird K g(c) = h(c k ) in der Tausch-Phase minimiert. k=1 3.3 CLARA Dieser Algorithmus wurde für die Analyse großer Datenmengen entwickelt. Ab einer Größe von zirka 100 Objekten ist aus Speicher- und Laufzeitgründen clara zu empfehlen. Der Algorithmus basiert genauso wie pam auf der K-medoid Methode. Als erstes wird eine Stichprobe aus allen Objekten gezogen und diese werden mittels pam auf K Cluster aufgeteilt. Dann wird jedes Objekt das nicht in dieser Stichprobe war seinem nächsten repräsentativen Objekt zugeordnet. So erhält man ein Clustering der gesamten Objektmenge. Danach wird als Gütemaß für die Klassifikation die Summe der durchschnittlichen Distanzen jedes Objektes zu dessen medoid berechnet. Nachdem dies für mehrere Stichproben gerechnet wurde, werden deren Gütemaße verglichen und jenes Clustering mit dem besten Gütemaß als Ergebnis ausgewählt. Es ist noch anzumerken, dass clara als Input nur die Datenmatrix X akzeptiert und nicht eine Distanzmatrix D. C <- clara(x, K, metric = "euclidean", stand = FALSE, samples = 5, sampsize = * K) 3.4 FANNY Ein weiteres Clusterverfahren für Partitionen ist fanny, welches ein so genanntes weicheres (Fuzzy) Clustering erlaubt. Hier wird ein anderer Algorithmus verwendet als bei pam oder bei clara. C <- fanny(x, K, diss = FALSE, metric = "manhattan", stand = FALSE) 9

10 Der Output von fanny enthält den Zugehörigkeitsindex u ik des i-ten Objekts zum k-ten Cluster. Dieser Index beschreibt die Wahrscheinlichkeit für das i-te Objekt zum k-ten Cluster zu gehören. Der Algorithmus minimiert dabei iterativ die Funktion K n i =1 u2 ik u2 i k d(i, i ) k=1 n i=1 2 n i =1 u2 i k unter den Nebenbedingungen u ik 0 und k u ik = 1. Dieses nichtlineare Optimierungsproblem mit Nebenbedingungen wird mittels der Lagrangegleichung und den Kuhn und Tucker Bedingungen gelöst. Die Ergebnisse können wie in pam mit plot(c) und clusplot(c) graphisch dargestellt werden. 3.5 AGNES Durch agnes erhält man ein agglomeratives hierarchisches Clustering. In der ersten Hierarchiestufe bildet jedes Objekt ein eigenes Cluster. Bei jeder weiteren Stufe werden dann immer die sich nächsten beiden Cluster zu einem neuen Cluster zusammengefasst bis am Ende nur noch ein großes Cluster mit allen n Objekten übrig bleibt. Im ersten Schritt werden also die beiden Objekte i und i mit minimaler Distanz d(i, i ) zusammengefasst. In weiterer Folge benötigen wir die Distanz zwischen zwei Cluster. Dazu verwendet agnes standardmäßig average linkage. Natürlich können auch complete linkage oder single linkage verwendet werden. Als graphische Darstellung erhält man einen Bannerplot und ein Dendrogramm. C <- agnes(x, diss = FALSE, metric = "euclidean", stand = FALSE, method = "single") plot(c) Man könnte nun annehmen, dass man die Verfahren für Partitionen nicht mehr braucht, da hier alle Partitionen von K = n,..., 1 berechnet werden. Dem ist aber nicht so, denn in hierarchischen Verfahren kann man den Zusammenschluss zweier Cluster auf einer Stufe nicht mehr rückgängig machen. Aus diesem Grund erhält man nicht dieselben Ergebnisse wie beispielsweise mit pam. Hat man einmal zwei Objekte zu einem Cluster zusammengefasst, kann man diese nicht mehr trennen. Diese Starrheit ist ein Vorteil (kurze Rechenzeiten) aber auch zugleich ein Nachteil (keine Möglichkeit der Korrektur falscher Zusammenschlüsse). Hierarchische Methoden beschreiben Daten ganz einfach auf eine andere Art und Weise. 10

11 3.6 DIANA Das Programm diana ist wie agnes ein hierarchisches Verfahren. Es ist jedoch divisiv, d.h. hierbei sind zuerst alle Objekte in einem einzigen Cluster, das dann solange weiter aufgeteilt wird bis n Cluster resultieren. Als Heterogenitätsmaß wird average linkage verwendet. C <- diana(x, diss = FALSE, metric = "manhattan", stand = TRUE) Zuerst berechnet man zu jedem einzelnen Objekt das Heterogenitätsmaß average linkage zwischen dem Cluster, welches nur das i-te Objekt enthält, zu dem anderen Cluster, das aus allen übrigen Objekten besteht. Jenes Objekt mit der größten Heterogenität bildet dann ein eigenes Cluster. Danach werden die Heterogenitätsmaße für jedes übrig gebliebene Objekt berechnet. Ist das Heterogenitätsmaß von einem Objekt zum abgetrennten Cluster geringer als zu den anderen Objekten, wird es in dieses Cluster verschoben. Im nächsten Schritt wird das größere von den zwei so entstandenen Cluster wieder auf dieselbe Weise gesplittet. Das größte Cluster ist jenes mit der größten Distanz zwischen zwei Objekten. 3.7 MONA Das divisive hierarchische Verfahren mona für ausschließlich binäre Variablen unterscheidet sich von allen bisher vorgestellten Algorithmen. Die Daten werden hier aufgrund nur einer Variablen in Cluster aufgeteilt. C <- mona(x) Im ersten Schritt wird diese zentrale Variable bestimmt. Gewählt wird dafür jene Variable, die zu allen übrigen Variablen am ähnlichsten ist. Für die Variable j werden also Ähnlichkeitsmaße A jg berechnet, wobei g den gesamten Pool der anderen Variablen bezeichnet. Die Ähnlichkeit zwischen der j-ten Variablen und einem Mitglied aus der Gruppe g berechnet sich aus A jg = n 11 jgn 00 jg n 10 jgn 01 jg. Danach wird die Ähnlichkeit der j-ten Variablen zu den übrigen mittels A j = g j A jg 11

12 charakterisiert. Als zentrale Variable t wird nun jene gewählt, für die diese Summe maximal ist, d.h. A t = max A j. j Der zweite Schritt ist die Bildung der Cluster. Am Anfang sind alle Objekte in einem Cluster. Dieses wird jetzt aufgeteilt indem man alle Objekte mit x it = 0 in ein Cluster gibt, und alle Objekte mit x it = 1 das zweite Cluster bilden. Danach werden diese beiden Cluster solange aufgeteilt, bis jedes Objekt ein eigenes Cluster bildet bzw. bis man Objekte nicht mehr aus Cluster nehmen kann, weil sie gleich sind bezüglich aller Variablen. 4 Antibiotika in der Gülle Ausgangspunkt der Analyse waren 817 multivariate Beobachtungen (Datenzeilen) über die Resistenz von E. Coli Bakterien auf 24 Antibiotika. Als Kodierung der Reaktion wurde sensibel sowie resistent verwendet. Aus sämtlichen Zeilen zu einer Probe werden nun spaltenweise die antibiotikum-spezifischen relativen Häufigkeiten berechnet. Dadurch resultiert eine Datenmatrix mit 103 Zeilen und den jeweiligen 24 mittleren Resistenzfrequenzen. Da unser Interesse jedoch nicht in einer Klassifizierung sämtlicher Betriebe sondern im Auffinden ähnlich reagierender Antibiotika liegt, wurde diese Datenmatrix transponiert. Transponiert wurde sie deshalb, weil man in den Zeilen die Objekte (Antibiotika) benötigt und in den Spalten die Variablen (Proben), die die Objekte beschreiben. Zuerst stellte sich heraus, dass sämtliche Keime auf die Antibiotika C, PT, FOX, CPD, FEP, CTX, CAZ, MEM und AN ausschließlich sensibel reagierten. In der weiteren Analyse werden daher diese neun Antibiotika zu einer repräsentativen Zeile (Cluster) zusammengefasst mit Namen CL1. Weiters wurden auch die beiden Antibiotika CIP und OFL zu einem zweiten Cluster zusammengefasst (mit Namen CL2), da die Keime auf diese beiden Antibiotika auch ident reagierten. Somit werden von nun an nur noch 24 9 = 15 Typen von Antibiotika mittels clusteranalytischer Methoden behandelt. In der Praxis ist es immer vorteilhaft mehr als nur ein Verfahren anzuwenden und dann die erzielten Ergebnisse miteinander zu vergleichen. Zuerst wurde dazu agnes eingesetzt mit average linkage als Heterogenitätsmaß (method). Als Distanz wurde die euklidische Distanz gewählt (metric). Am Beginn eines hierarchischen Clustering bilden alle Objekte ein eigenes Cluster (15 Cluster). Wenn man im Dendogramm der Abbildung 1 von unten nach oben geht, erkennt man zuerst den Zusammenschluss von CXM mit CL1. Diese beiden sind sich also von allen Objekten am ähnlichsten. Das Heterogenitätsmaß beträgt 12

13 average linkage PIP CL1 CXM NA NOR CL2 GM TM FT CXMAX C Agglomerative Coefficient = 0.79 Abbildung 1: Hierarchisches Clustering der Gülleproben mit average linkage Heterogenität und euklidischer Distanz. dafür nur (siehe Tabelle 1). Alle anderen Objekte bilden auf dieser ersten Stufe jeweils noch eigene Cluster (14 Cluster). Als nächstes werden NOR und CL2 zu einem zusätzlichen Cluster zusammengefügt mit einer Heterogenität von auf dieser Stufe (13 Cluster). Das dritte Cluster bildet GM mit TM mit einer Verschiedenheit von (12 Cluster), u.s.w. Anhand des Dendrogramms kann man auch sofort erkennen, dass sich von allen übrigen Antibiotika stark unterscheidet. Dies liegt darin begründet, dass die Keime eine hohe Resistenzrate aufweisen und in sogar 72 Prozent der Fälle resistent auf reagieren. Betrachtet man das Dendrogramm von oben (das entspricht dem Lesen der Tabelle von unten), so erkennt man, dass bei zwei Cluster (also auf Stufe 13) das Antibiotikum ein Cluster und der Rest der Antibiotika das zweite Cluster bilden. Bei drei Cluster bildet ein Cluster sowie auch, und alle übrigen Antibiotika befinden sich im dritten Cluster. Die Keime sind gegen in zirka 17 Prozent der Fälle resistent. Bei vier Cluster bildet,, /PIP/ jeweils ein Cluster und der Rest das vierte Cluster. Hier ist ersichtlich, dass dieses Ergebnis nicht unbedingt von den Kategorien der Antibiotika abhängt. und PIP sind nämlich Penicilline und gehört zu den Cephalosporinen. Als Gütemaß für dieses Klassifikation verwenden wir den agglomerative coefficient (AC). Dieser bewegt sich zwischen 0 und 1 und ist in unserem Fall gerade 0.79, was auf eine gute Bewertung der gefundenen Clusterstruktur hinweist. 13

14 Stufe Zusammenschluss Heterogenität Clusteranzahl 1 CL1 CXM NOR CL GM TM NA1 NOR, CL CL1, CXM NA, NOR, CL PIP GM, TM FT CXMAX C , PIP , PIP, Tabelle 1: Klassifikationen der verschiedenen Stufen aus agnes mit average linkage Heterogenität und euklidischer Distanz. Als zweite Methode wurde pam angewandt. Dies ist ein Clusterverfahren für Partitionen und etwas flexibler als hierarchische Verfahren. Wie schon erwähnt, können bei hierarchischen Verfahren Objekte bzw. Cluster die einmal auf einer Stufe vereinigt wurden auf den folgenden Stufen nicht mehr getrennt werden. Es ist vorteilhaft diesen Algorithmus für verschiedene Werte von K anzuwenden. Anhand der Gütemaße kann man sich dann für eine Partition entscheiden. pam berechnet für jedes Objekt i ein Gütemaß (silhouette width) s(i), das aussagt wie gut ein Objekt in das Cluster passt. Weiters erhält man ein Gütemaß für jedes Cluster (average silhouette width per cluster s(c k )) und für die gesamte Partition (average silhouette width s(c)). Ein Gütemaß von Eins zeigt ein gutes Clustering an, ein Maß von Null bedeutet dass ein Objekt zwischen zwei Cluster liegt und ein negatives Maß weist darauf hin, dass das Objekt wahrscheinlich dem falschen Cluster zugeteilt wurde. Zuerst wurde eine Partition für K = 2 berechnet. Als Medoide ergaben sich NOR und. Das Ergebnis ist ident dem aus agnes. bildet ein Cluster und alle anderen Antibiotika das Andere. Für die Gütemaße der Cluster erhält man für den Wert 0 (s(c) = 0 für Cluster mit nur einem Objekt) und für Cluster 1 den Wert Das Gütemaß für die gesamte Partition beträgt Die zweite Partition (K = 3) ergab zuerst das Cluster PIP///, dann als drittes Cluster, und den Rest als zweites Cluster. Die repräsentativen Objekte sind PIP, NOR und. Hier gibt es einen Unterschied zu agnes, was 14

15 K = 2 K = 3 K = 5 Antib. Cl. Nachb. s(i) Cl. Nachb. s(i) Cl. Nachb. s(i) NOR CXM CL CL TM NA GM FT CXMAX C PIP Tabelle 2: Ergebnisse aus pam mit K = 2, K = 3 und K = 5 Partitionen. aber der starren Struktur dieses Verfahrens zuzuschreiben ist. Als Gütemaß erhält man für Cluster 1 den Wert 0.118, für das zweite und für das Dritte die Null. Das gesamte Clustering hat eine Güte von Für den Fall K = 4 (nicht in der Tabelle 2 angeführt) bildet wieder ein Cluster, ein weiteres, das dritte Cluster bildet /PIP/ und das vierte wieder alle übrigen Antibiotika. Dieses Ergebnis ist wieder ident zu jenem mit agnes. Das Gütemaß beträgt hierfür Die Partition K = 5 ergibt zusätzlich als eigenes Cluster. Die restliche Struktur bleibt wie für K = 4. Auch hier erhielten wir mit agnes dieselben Ergebnisse. Als average silhouette width erhalten wir Für K = 6 liegt dieser Wert nur mehr bei Auch für K 7 erhalten wir Werte um Die Graphiken in der Abbildung 2 zeigen deutlich, dass das Clustering für K = 2 die Datenstruktur sehr gut wiederspiegelt. Aber auch die Abbildung für K = 3 beschreibt die Daten sehr plausibel. Zu erwähnen bleibt noch, dass die Gütemaße s(i), s(c) und s(p ) immer mit Vorsicht zu interpretieren sind. Diese sollten immer zusammen mit den entsprechenden Graphiken betrachtet werden. Auch die Ergebnisse anderer Clusterverfahren sollten immer berücksichtigt werden um eine passende bzw. sinnvolle Clusterstruktur der Daten erkennen zu können. 15

16 Clusterplot K=2 Clusterplot K= TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP These two components explain % of the point variability. These two components explain % of the point variability. Clusterplot K=4 Clusterplot K= TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP These two components explain % of the point variability. These two components explain % of the point variability. Abbildung 2: Partitionierung der Gülledaten, oben für K = 2 (links) und K = 3 (rechts), sowie unten für K = 4 (links) und K = 5 (rechts). 16

17 Clusterplot K=2 Clusterplot K= TM GM CXM CL1 CXMAX NOR CL2 NAFT C PIP TM GM CXM CL1 CXMAX NOR CL2 NAFT C PIP These two components explain % of the point variability. These two components explain % of the point variability. Abbildung 3: Fuzzy Partitionierung der Gülledaten für K = 2 (links) und K = 3 (rechts). Als drittes Verfahren wurde fanny berechnet. Dieses Clusterverfahren brachte komplett andere Ergebnisse wie pam und agnes mit sehr schlechten Gütemaßen. Auch die Graphiken in der entsprechenden Abbildung 3 weisen auf fragwürdige Klassifikationen hin. Für K = 2 erhalten wir hier ein Cluster mit ////PIP/C und ein weiteres mit NOR/CL1/CXM/CL2/TM/GM/NA/FT/CXMAX. Das Gütemaß dieser gesamten Klassifikation ergibt hier nur Weiters resultiert s() = und jene für,,, PIP und C sind sogar negativ. Letzteres weist darauf hin, dass die Objekte wahrscheinlich der falschen Klasse zugeteilt wurden. Für K = 3 und K = 4 beträgt die average silhouette width s(p ) nur mehr Antibiotika im Wasser In einer Parallelstudie wurden 390 Wasserproben so wie zuvor analysiert. Diese stammen von 86 Orten, davon 40 aus Brunnen- und 46 aus Oberflächenwasser. Hier kam es nie zu einer Resistenz, und alle Keime reagierten sensibel, bei den 12 Antibiotika PT, CPD, FEP, CTX, CAZ, MEM, GM, AN, TM, NOR, CIP, OFL. Eines davon wird in Folge unter dem Namen CL1 weiterhin verwendet. Jetzt zeigten C und FT ausschließlich dieselben Reaktionen und wir verwendet weiterhin eine davon unter der Bezeichnung CL2. Daher reduziert sich hier die Anzahl unterscheidbarer Antibiotika von 24 sogar auf nur

18 CL1 CL2 CXM FOX average linkage C PIP NA CXMAX Agglomerative Coefficient = 0.73 Abbildung 4: Hierarchisches Clustering der Wasserproben mit average linkage Heterogenität und euklidischer Distanz. Das hierarchische Clustering verbindet sofort CL1 und CL2. Da es für die Mitglieder in CL1 niemals und bei denen in CL2 gerade einmal zu einer sensiblen Reaktion gekommen ist, ist dieser erste Schritt auch nachvollziehbar. Die folgenden Verbindungen sind wie für die Ergebnisse bei den Gülleproben zu interpretieren und sind als Dendrogramm in der Abbildung 4 dargestellt. Wendet man das Partitionsverfahren auf die Daten an, so führt dies zu den Ergebnissen in der Abbildung 5. Hier sieht man deutlich, dass bei den Wasserproben das Antibiotikum (mit einer Resistenzrate von über 35%) die Rollen von bei den Gülleproben einnimmt. Die ist in der K = 2 Lösung ganz klar erkenntlich. Erlaubt man K = 3 Cluster, so wird dadurch das Antibiotikum auch abgetrennt. Die Lösung mit K = 4 fasst noch die Antibiotika FOX, CXM und CXMAX zusammen, letzteres wird bei einer weiteren Partition davon wieder abgetrennt. Dieses Ergebnis mit K = 5 ähnelt stark dem Resultat des hierarchischen Clustering in der Abbildung 4 Durch das Fuzzy Clustering fanny ergeben sich auch hier schlechte Gütemaße. Die Ergebnisse für zwei und vier Cluster sind der Abbildung 6 dargestellt. Für K = 2 erhalten wir hier ein Cluster mit //CXMAX// und die übrigen ergeben ein zweites Cluster. Für K = 4 erhält man ein Cluster mit den Antibiotika /PIP/NA/, eines mit C/CL1//CL2, sowie als eigenes Cluster, und letztlich eine Gruppe bestehend aus CXM/CXMAX/FOX. 18

19 Clusterplot K=2 Clusterplot K= C PIP NA CL1 CL2 CXM FOX CXMAX C PIP NA CL1 CL2 CXM FOX CXMAX These two components explain 81.8 % of the point variability These two components explain 81.8 % of the point variability. Clusterplot K=4 Clusterplot K= C PIP NA CL1 CL2 CXM FOX CXMAX C PIP NA CL1 CL2 CXM FOX CXMAX These two components explain 81.8 % of the point variability. These two components explain 81.8 % of the point variability. Abbildung 5: Partitionierung der Wasserdaten,, oben für K = 2 (links) und K = 3 (rechts), sowie unten für K = 4 (links) und K = 5 (rechts). 19

20 Clusterplot K=2 Clusterplot K= C PIP NA CL1 CL2 CXM FOX CXMAX C PIP NA CL1 CL2 CXM FOX CXMAX These two components explain 81.8 % of the point variability These two components explain 81.8 % of the point variability. Abbildung 6: Fuzzy Partitionierung der Wasserdaten für K = 2 (links) und K = 4 (rechts). 6 Zusammenfassung Mittels der Clusteranalyse wurden 24 zu analysierenden Antibiotika in Gruppen aufgeteilt, und zwar so, dass E. Coli Bakterien auf Antibiotika in einer Gruppe möglichst gleich reagieren (sensibel oder resistent). Die Gruppen die also bei der Clusteranalyse gebildet wurden sind in sich gleichartig und untereinander unterschiedlich. Dies wurde mittels Homogenitäts- und Heterogenitätsmaße belegt bzw. durch graphische Auswertungen dargestellt. Als Klassifikationstypen wurden in dieser Analyse die Partition und die Hierarchie gewählt. Dies bedeutet, dass in den Cluster jedes Antibiotikum nur einmal auftreten darf. Gülle: Wegen gleicher Keimreaktionen wurden die Antibiotika C, PT, FOX, CPD, FEP, CTX, CAZ, MEM und AN zu Cluster CL1 zusammengefasst. Auch die Antibiotika CIP und OFL wurden in CL2 umbenannt, da sie ausnahmslos gleiche Reaktionen hervorgerufen haben. Somit erfolgte nur mehr eine Gruppierung von 15 unterschiedlichen Antibiotika. Aufgrund der Ergebnisse des hierarchischen Verfahrens sowie den Partitionen bzw. wegen der daraus resultierenden Gütemaße und graphischen Auswertungen, ist für die Gülledaten das Clustering der Antibiotika in drei Gruppen am sinnvollsten (das Gütemaß beträgt dafür 0.319). Die erste Gruppe wird von PIP/// gebildet, die zweite beinhaltet NOR/CXM/CL1/CL2/TM/NA/GM/FT/CXMAX/C und gänzlich unterschiedlich dazu ist die dritte Gruppe mit. Die Clusteranalyse hat hierbei also die zu untersuchenden Antibiotika in eine große und zwei kleinere Gruppen aufgeteilt, die sich alle stark von einander unterscheiden. 20

21 Wasser: Da sich die Menge der Antibiotika, auf welche die Keime aus dem Wasser ausnahmslos sensibel regieren, von denen zuvor unterscheiden, kann auch nur schwer ein unmittelbarer Vergleich der Ergebnisse angestellt werden. So konnte im Wasser keine Resistezreaktion der Keime auf die Antibiotika PT, CPD, FEP, CTX, CAZ, MEM, GM, TM, AN, NOR, CIP, OFL beobachtet werden. Diese wurden daher zum Cluster CL1 zusammen gegeben. Gleiche Reaktionen zeigtemn die Keime auf C und FT, welche das Cluster CL2 bildeten. Die Ergebnisse beziehen sich in diesem Fall also nur auf die verbleibenden 13 Antibiotika. Von diesen bilden die beiden Antibiotika sowie immer ganz deutlich zwei eigene Cluster. Zwei weitere Cluster sind durch CXM/FOX sowie durch CXMAX definiert. Alle übrigen Antibiotika, das sind /C/PIP/CL1/CL2//NA, bilden noch eine größere fünfte Gruppe. Literatur Kaufman, L., Rousseeuw, P.J. (1990): Finding Groups in Data: An Introduction to Cluster Analysis. Wiley, New York. Hartung, J., Elpelt, B. (1986): Multivariate Statistik: Lehr und Handbuch der angewandten Statistik. Oldenburg, München. 21

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

2 Einlesen von Datensätzen

2 Einlesen von Datensätzen 2 Einlesen von Datensätzen 2.1 Einlesen von SPSS-Datenfiles SPSS bietet die beiden kompatiblen Datenformate.sav und.por zum Speichern und Einlesen von Dateien an. Daten dieses Formats können problemlos

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Modelle mit korrelierten Bernoulli-Variablen zur Beschreibung von Antibiotika Resistenzen

Modelle mit korrelierten Bernoulli-Variablen zur Beschreibung von Antibiotika Resistenzen Modelle mit korrelierten Bernoulli-Variablen zur Beschreibung von Antibiotika Resistenzen Herwig Friedl Radoslava Mirkov Februar 2004 Zusammenfassung In der vorliegenden Untersuchung werden die Wahrscheinlichkeiten

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

Angewandte Statistik mit R

Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis

Mehr

Angewandte Statistik mit R. Eine Einführung für Ökonomen und

Angewandte Statistik mit R. Eine Einführung für Ökonomen und Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 3. Auflage Springer Gabler Inhaltsverzeichnis Vorwort zur dritten Auflage Vorwort zur ersten Auflage Vorwort

Mehr

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4 Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren

Mehr

KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B

KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B KAPITEL 5 Boolesche Polynome Polynome über R, d.h. reelle Funktionen der Form p(x) = a 0 + a 1 x + + a n x n, x R, sind schon aus der Schulmathematik bekannt. Wir beschäftigen uns nun mit Booleschen Polynomen,

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

3. Lektion: Deskriptive Statistik

3. Lektion: Deskriptive Statistik Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive

Mehr

3.3 Optimale binäre Suchbäume

3.3 Optimale binäre Suchbäume 3.3 Optimale binäre Suchbäume Problem 3.3.1. Sei S eine Menge von Schlüsseln aus einem endlichen, linear geordneten Universum U, S = {a 1,,...,a n } U und S = n N. Wir wollen S in einem binären Suchbaum

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Combinatorial optimisation and hierarchical classication

Combinatorial optimisation and hierarchical classication Universität zu Köln Zentrum für Angewandte Informatik Prof. Dr. R. Schrader Seminar im Wintersemester 2007/2008 Ausgewählte Kapitel des Operations Research Combinatorial optimisation and hierarchical classication

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Clusteranalyse und Display-Methoden

Clusteranalyse und Display-Methoden Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich

Mehr

2. Prinzipien der Datenreduktion

2. Prinzipien der Datenreduktion 2. Prinzipien der Datenreduktion Man verwendet die Information in einer Stichprobe X 1,..., X n, um statistische Inferenz über einen unbekannten Parameter zu betreiben. Falls n groß ist, so ist die beobachtete

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Übersicht der Vorlesung

Übersicht der Vorlesung Übersicht der Vorlesung 1. Einführung 2. Bildverarbeitung 3. orphologische Operationen 4. Bildsegmentierung 5. erkmale von Objekten 6. Klassifikation 7. Dreidimensionale Bildinterpretation 8. Bewegungsanalyse

Mehr

Angewandte Stochastik

Angewandte Stochastik Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel

Mehr

2 ZAHLEN UND VARIABLE

2 ZAHLEN UND VARIABLE Zahlen und Variable 2 ZAHLEN UND VARIABLE 2.1 Grundlagen der Mengenlehre Unter einer Menge versteht man die Zusammenfassung von unterscheidbaren Objekten zu einem Ganzen. Diese Objekte bezeichnet man als

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 7 11. Mai 2010 Kapitel 8. Vektoren Definition 76. Betrachten wir eine beliebige endliche Anzahl von Vektoren v 1, v 2,..., v m des R n, so können

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf: 18 3 Ergebnisse In diesem Kapitel werden nun zunächst die Ergebnisse der Korrelationen dargelegt und anschließend die Bedingungen der Gruppenbildung sowie die Ergebnisse der weiteren Analysen. 3.1 Ergebnisse

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 10.1.5 Varianzanalyse (ANOVA: analysis of variance ) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder werden zwei unterschiedliche

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 397 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

In diesem Abschnitt betrachten wir nur quadratische Matrizen mit Komponenten aus einem Körper K, also A K n n für ein n N. Wenn (mit einem n > 1)

In diesem Abschnitt betrachten wir nur quadratische Matrizen mit Komponenten aus einem Körper K, also A K n n für ein n N. Wenn (mit einem n > 1) 34 Determinanten In diesem Abschnitt betrachten wir nur quadratische Matrizen mit Komponenten aus einem Körper K, also A K n n für ein n N Wenn (mit einem n > 1) a 11 a 12 a 1n a 21 a 22 a 2n A =, (1)

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

1.5 Berechnung von Rangzahlen

1.5 Berechnung von Rangzahlen 1.5 Berechnung von Rangzahlen Bei vielen nichtparametrischen Verfahren spielen die so genannten Rangzahlen eine wesentliche Rolle, denn über diese werden hier die Prüfgrößen berechnet. Dies steht im Gegensatz

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m. Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten

Mehr

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Bivariater Zusammenhang in der Vierfeldertafel PEΣO Bivariater Zusammenhang in der Vierfeldertafel PEΣO 12. Oktober 2001 Zusammenhang zweier Variablen und bivariate Häufigkeitsverteilung Die Bivariate Häufigkeitsverteilung gibt Auskunft darüber, wie zwei

Mehr

EINSENDERINFORMATION ANTIBIOTIKA-DOSIERUNGEN NACH EUCAST. Karlsruhe, im August Sehr verehrte Frau Kollegin, sehr geehrter Herr Kollege,

EINSENDERINFORMATION ANTIBIOTIKA-DOSIERUNGEN NACH EUCAST. Karlsruhe, im August Sehr verehrte Frau Kollegin, sehr geehrter Herr Kollege, EINSENDERINFORMATION ANTIBIOTIKA-DOSIERUNGEN NACH EUCAST Sehr verehrte Frau Kollegin, sehr geehrter Herr Kollege, Karlsruhe, im August 2018 in den nachfolgenden Tabellen möchten wir Sie über die Antibiotika-Dosierungen

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

OPT Optimierende Clusteranalyse

OPT Optimierende Clusteranalyse Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen 3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal

Mehr

Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung

Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung Zusammenfassung der Diplomarbeit an der Hochschule Zittau/Görlitz Maria Kiseleva Motivation

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Zusammenhangsanalyse in Kontingenztabellen

Zusammenhangsanalyse in Kontingenztabellen Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / graphische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst 2 2 - Kontingenztafel

Mehr

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16 Was sind»daten«? Studiengang Angewandte Mathematik WS 2015/16 Daten: Überblick Im Data Mining werden Daten analysiert um allgemein über Data Mining Verfahren sprechen zu können, benötigt man also eine

Mehr

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm y Aufgabe 3 Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6 a) Zur Erstellung des Streudiagramms zeichnet man jeweils einen Punkt für jedes Datenpaar (x i, y i ) aus der zweidimensionalen

Mehr

Kapitel 9. Komplexität von Algorithmen und Sortieralgorithmen

Kapitel 9. Komplexität von Algorithmen und Sortieralgorithmen 1 Kapitel 9 Komplexität von Algorithmen und Sortieralgorithmen Ziele 2 Komplexität von Algorithmen bestimmen können (in Bezug auf Laufzeit und auf Speicherplatzbedarf) Sortieralgorithmen kennenlernen:

Mehr

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained

Mehr

Anhang: Ungarische Methode

Anhang: Ungarische Methode Ungarische Methode 107 Anhang: Ungarische Methode Zum Schluss des Kurses soll noch der Algorithmus der Ungarischen Methode beschrieben werden. Wir lehnen uns hierbei eng an der Darstellung von DOMSCHKE

Mehr

WS 2015/16 Diskrete Strukturen Kapitel 3: Kombinatorik (3)

WS 2015/16 Diskrete Strukturen Kapitel 3: Kombinatorik (3) WS 2015/16 Diskrete Strukturen Kapitel 3: Kombinatorik (3) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_15

Mehr

3 Diskriminationsanalyse 3.1 Diskriminationsanalyse mit zwei Gruppen

3 Diskriminationsanalyse 3.1 Diskriminationsanalyse mit zwei Gruppen Lineare Diskrimination mit zwei Gruppen 6.5.3 - - 3 Diskriminationsanalyse 3. Diskriminationsanalyse mit zwei Gruppen Schreibweise: p unabhängige Merkmale: X, X,..., X p (metrisch; auch ordinal möglich,

Mehr

Therapie von Infektionen beim alten Menschen

Therapie von Infektionen beim alten Menschen Bad Honnef-Symposium 2011 Therapie von Infektionen beim alten Menschen 18./19. April 2011, Königswinter Resistenzsituation bei Harnwegsisolaten von älteren Patienten Ergebnisse aus der Resistenzstudie

Mehr

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557 1 Einleitung Es soll anhand des UCBAdmissions Datensatzes die Frage beantwortet werden, ob bei der Zulassung von Studenten Frauen benachteiligt werden. Die Stichprobe lautet zunächst # Daten (UCB

Mehr

Der χ2-test Der χ2-test

Der χ2-test Der χ2-test Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest) Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik Informationsbestände analysieren Statistik 8. Statistik Nebst der Darstellung von Datenreihen bildet die Statistik eine weitere Domäne für die Auswertung von Datenbestände. Sie ist ein Fachgebiet der Mathematik

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1 Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende

Mehr

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

5.5 PRE-Maße (Fehlerreduktionsmaße) 6 359 5.5 PRE-Maße (Fehlerreduktionsmaße) 6 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.

Mehr

6.4 Der Kruskal-Wallis Test

6.4 Der Kruskal-Wallis Test 6.4 Der Kruskal-Wallis Test Der Test von Kruskal und Wallis, auch H-Test genannt, ist ein Test, mit dem man die Verteilungen von Teilstichproben auf Unterschiede untersuchen kann. Bei diesem Test geht

Mehr

Kapitel 16. Invertierbare Matrizen

Kapitel 16. Invertierbare Matrizen Kapitel 16. Invertierbare Matrizen Die drei Schritte des Gauß-Algorithmus Bringe erweiterte Matrix [A b] des Gleichungssystems A x auf Zeilenstufenform [A b ]. Das System A x = b ist genau dann lösbar,

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

Nationales Referenzzentrum für gramnegative Krankenhauserreger. MRGN-Klassifikation und Meldepflicht: Hinweise und Fallstricke

Nationales Referenzzentrum für gramnegative Krankenhauserreger. MRGN-Klassifikation und Meldepflicht: Hinweise und Fallstricke Nationales Referenzzentrum für gramnegative Krankenhauserreger MRGN-Klassifikation und Meldepflicht: Hinweise und Fallstricke Was sind die Konsequenzen von Resistenz? Antibiotika gegen E. coli Ampicillin/Amoxicillin

Mehr

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen Ü b u n g 1 Aufgabe 1 Die Ereignisse A, B und C erfüllen die Bedingungen P(A) = 0. 7, P(B) = 0. 6, P(C) = 0. 5 P(A B) = 0. 4, P(A C) = 0. 3, P(B C) = 0. 2, P(A B C) = 0. 1 Bestimmen Sie P(A B), P(A C),

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr