Keimreaktionen auf Antibiotikagruppen

Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen von E. Coli Bakterien aus Gülleproben steirischer Schweinezuchtbetriebe sowie aus Wasserproben bezüglich ihrer Resistenz gegenüber dieser Antibiotika beobachtet. Auf sämtliche Antibiotika in einer gefundenen Gruppe sollen die Keime so ähnlich wie möglich reagieren. Verschiedene Strategien und Methoden der Clusteranalyse werden deshalb angewendet, wobei überraschenderweise die Verfahren zwar jeweils ähnliche Ergebnisse ergeben, diese sich jedoch für die beiden Datensätze unterscheiden. 1 Einleitung Im Zuge einer Studie am Hygieneinstitut der Karl-Franzens Universität in Graz, werden die Resistenzen von E. Coli Bakterien auf diverse Antibiotika beobachtet. Diese Keime wurden hierbei aus Gülleproben isoliert, die von steirischen Schweinezuchtbetrieben aus verschiedenen Produktionszweigen stammen. Jeweils eine Gülleprobe wurde für jeden Produktionszweig in einem Betrieb entnommen. Aus jeder Probe wurden dann E. Coli Bakterien isoliert und deren Reaktion auf die folgenden 24 Antibiotika getestet. β-lactam Anibiotika: dazu zählen Penicilline: Ampicillin (), Amoxicillin + Clavulansäure (C), Piperacillin (PIP), Piperacillin + Tazobactam (PT); Institut für Statistik, Technische Universität Graz, Steyrergasse 17, A-8010 Graz 1

Cephalosporine: Cefalothin (), Cefuroxim (CXM), Cefuroxim-Axetil (CXMAX), Cefoxitin (FOX), Cefpodoxime (CPD), Cefepim (FEP), Cefotaxim (CTX), Ceftazidim (CAZ); Carbapeneme: Meropenem (MEM); Aminoglycoside: Gentamicin (GM), Tobramycin (TM), Amikacin (AN); Chinolone: Nalidixinsäure (NA), Norfloxacin (NOR), Ciprofloxacin (CIP), Ofloxacin (OFL); Andere: Tetracyclin (), Co-Trimazol (), Nitrofurantoin (FT), Chloramphenicol (C). Falls genügend Keime isoliert werden konnten, wurde die Reaktion von bis zu zehn verschiedenen Keimen aus derselben Probe auf ein und dasselbe Antibiotikum beobachtet. Die vorliegenden Daten beinhalten somit je Probe jeweils 24 beobachtete relative Resistenz-Häufigkeiten. Von Interesse ist nun die Untersuchung, ob sich die Keime ähnlich verhalten in deren Reaktion auf einzelne Antibiotika, d.h. ob die E. Coli Bakterien entweder darauf jeweils resistent oder nicht resistent reagieren. Man ist also an einer Gruppierung der Antibiotika interessiert, wobei sich die Keime auf Antibiotika in einer derartigen Gruppe möglichst gleich verhalten sollen. Die Gruppen müssen in sich homogen sein, sich aber zueinander heterogen verhalten. Aus diesem Grund werden Methoden der Clusteranalyse als Verfahren zum Auffinden derartiger Strukturen eingesetzt. Diese sind rein deskriptiv und dienen zur Erkennung derartiger Gruppierungen in multivariaten Daten. Nach einer Einführung in die Verfahren der Clusteranalyse im zweiten Kapitel werden im dritten Kapitel die Prinzipien jener Algorithmen dargestellt, welche die Programm-Bibliothek cluster unter R anbietet. Im vierten und fünften Kapitel erfolgt dann das Auffinden und die Analyse von Antibiotika-Cluster mittels dieser Algorithmen für die beiden Datensätze. 2 Clusteranalyse Unter Clusteranalyse versteht man ein Verfahren zur Einteilung von n Objekten in K n homogene Gruppen. Diese Einteilung wird oft als Klassifikation oder Clustering bezeichnet. Die durch eine Anzahl von Variablen beschriebenen Objekte sollen sich innerhalb einer Gruppe möglichst ähnlich verhalten. Im Gegensatz dazu sollten sich Objekte aus unterschiedlichen Gruppen möglichst verschieden verhalten. Derartige Gruppen nennt man auch Cluster oder Klassen. Jede dieser Gruppen enthält mindestens ein Objekt. 2

Je nach Zielsetzung einer Clusteranalyse unterscheiden Hartung & Elpelt (1986) als Typen einer Klassifikation die Überdeckung, die Partition, die Quasihierarchie und die Hierarchie. Von einer Überdeckung spricht man, wenn sich einzelne Klassen überschneiden dürfen (gemeinsame Objekte enthalten können), jedoch keine Klasse vollständig in einer anderen enthalten ist. Die Partition ist eine spezielle Überdeckung, bei der verlangt wird, dass kein Objekt zu mehr als einer Klasse gehört. Hier sind also Klassenüberschneidungen nicht zulässig, d.h. die Klassen einer Partition sind disjunkt. Die Quasihierarchie ist wiederum eine Klassifikation, welche durch eine Folge von Überdeckungen gebildet wird. Innerhalb einer Stufe sind die Klassen einer Quasihierarchie derart aufgebaut, dass sie sich zwar überlappen können, jedoch eine Klasse nicht gänzlich in einer anderen enthalten sein darf. Über die Stufen hinweg sind aber Klassen notwendigerweise ineinander enthalten. Eindeutig charakterisieren lässt sich eine Quasihierarchie nur durch Angabe der Überdeckungen auf den einzelnen Stufen oder graphisch durch die Angabe eines Stammbaums. Die Hierarchie ist eine Folge von Partitionen und somit eine spezielle Quasihierarchie. Auch Hierarchien lassen sich eindeutig durch Angabe der Partitionen auf den einzelnen Stufen charakterisieren und in Form eines Stammbaums oder in Form eines Dendrogramms veranschaulichen. Unabhängig von der gewählten Klassifikation muss noch entschieden werden, ob alle n Objekte klassifiziert werden soll. Hartung & Elpelt (1986) sprechen von einer exhaustiven (erschöpfenden) Klassifikation, falls jedes Objekt klassifiziert wird, ansonsten von einer nichtexhaustiven Klassifikation. 2.1 Ähnlichkeitsmaße Bei der Clusteranalyse möchte man eine große Homogenität innerhalb jeder Klasse und eine starke Heterogenität zwischen diesen Klassen erzielen. Sämtliche Objekte in einer Klasse sollen sich also möglichst gleichartig verhalten und die einzelnen Klassen sollen möglichst unterschiedlich sein. Daher liegt es nahe, die Güte einer gefundenen Klassifikation von der Homogenität ihrer Klassen und/oder der Heterogenität unter den Klassen abhängig zu machen. Um aber die Homogenität und die Heterogenität beschreiben zu können, benötigt man zuerst den Begriff der Distanz zweier Objekte oder zweier Klassen. Man geht von einer n p Datenmatrix X aus mit n Zeilen (Objekte) und p Spalten (Variablen). Bezeichnet x ij die j-te Variable des i-ten Objekts, für i = 1,..., n 3

und j = 1,..., p, so ist X definiert als x 11 x 1j x 1p... X = x i1 x ij x ip... x n1 x nj x np. (1) Zuerst ist es sinnvoll, eine Distanz für jedes Paar von Objekten i und i, i i, zu definieren. Die bekannteste Distanz ist die Euklidische Distanz, definiert durch p d(i, i ) = (x ij x i j) 2. j=1 Ein weiteres Distanzmaß ist die City Block Metrik, oder auch Manhattan Distanz genannt, p d(i, i ) = x ij x i j. j=1 Darüberhinaus kann man auch den Tschebyscheff Abstand oder die Mahalanobisdistanz verwenden. Um die Verschiedenheit zweier Objekte zu beschreiben, können nicht nur Distanzmaße sondern auch andere Koeffizienten eingesetzt werden. Im Gegensatz zu Distanzmaßen erfüllen derartige Verschiedenheitsmaße nicht die Dreiecksungleichung. Der Einfachheit halber, wollen wir jedoch diese Maße auch als Distanz bezeichnen. Mit den obigen Distanzmaßen lässt sich zu einer Datenmatrix X eine n n Distanzmatrix D berechnen, die als Einträge die Distanzen d(i, i ) enthält. 2.2 Homogenitätsmaße Ausgehend von Distanzen kann ein Maß h(c k ) für die Homogenität der Objekte in der k-ten Klasse C k, k = 1,..., K, berechnet werden. Dieses ist nicht-negativ und umso kleiner, je homogener diese Objekte sind. Eine Möglichkeit der Bewertung der Homogenität besteht darin, die Summe der Distanzen zwischen allen Paaren von Objekten in C k zu berechnen und diese dann eventuell noch zu normieren, d.h. man betrachtet h(c k ) = 1 n k i<i :(i,i ) C k d(i, i ), mit der Normierungskonstante n k. Dafür könnte man beispielsweise die Anzahl C k der zur k-ten Klasse gehörenden Objekte oder auch C k ( C k 1) wählen. 4

Ein alternatives Maß für die Klassenhomogenität wäre auch h(c k ) = max d(i, i ), (i,i ) C k also die Distanz der beiden unähnlichsten Objekte in der Klasse C k. Dies ist natürlich ein sehr strenges Maß für die Homogenität, das zudem die Homogenität großer Klassen verhältnismäßig schlecht beurteilt. Diesen Nachteil vermeidet h(c k ) = min d(i, i ). (i,i ) C k Hier kann es jedoch andererseits wiederum leicht passieren, dass große Klassen trotz relativ kleinem Wert von h(c k ) recht heterogen sind. Es gibt noch viele weitere Homogenitätsmaße, die zum Beispiel die Varianzen der p beobachteten Merkmale in der Klasse C k oder auch die Korrelation dieser Merkmale zusätzlich berücksichtigen. 2.3 Heterogenitätsmaße Ein Maß v(c k, C k ) für die Heterogenität (Verschiedenheit) zweier Klassen soll auch nur nicht-negative Werte aufweisen und derartig gestaltet sein, dass es umso kleiner ist, je ähnlicher sich die Klassen C k und C k sind. Außerdem wird man generell wie schon für Distanzen auch hierfür fordern, dass v(c k, C k ) = 0 und v(c k, C k ) = v(c k, C k ) gilt. Geht man von Distanzen aus, so lässt sich die Heterogenität zweier disjunkter Klassen C k und C k zum Beispiel in folgender Weise beschreiben v(c k, C k ) = max d(i, i ) i C k,i C k d(i, i ) min i C k,i C k 1 C k C k i C k i C k d(i, i ) complete linkage, single linkage, average linkage. Hier wird die Heterogenität der Klassen (C k, C k ) auf Grund des unähnlichsten (complete linkage) oder des ähnlichsten Objektpaares (single linkage) gemessen, oder durch die durchschnittliche Ähnlichkeit der Objekte aus C k zu den Objekten in C k (average linkage) beschrieben. Ein weiteres Heterogenitätsmaß, das eine Datenmatrix in der Form (1) zu Grunde legt, ist das centroid-maß. Hier berechnet man den euklidischen Abstand zwischen den Mittelwertvektoren der p Merkmale aller Objekte in den Klassen C k und C k. (2) 5

2.4 Gütemaße Im Endeffekt wird man auch an der Güte der gefundenen Klassifikation selbst interessiert sein. Diese Gütemaße hängen natürlich vom Klassifikationstyp ab, können jedoch so gewählt werden, dass sie von den Homogenitäten der Klassen und/oder den Heterogenitäten zwischen den Klassen abhängen. So kann man die Güte einer Partition durch die Summe der Klassenhomogenitäten oder den normierter Kehrwert der Heterogenitäten beschreiben. Es gibt auch Maße die sowohl die Homogenität als auch die Heterogenität berücksichtigen. Die Gütebewertung von Hierarchien erfolgt nicht für die gesamte Klassifikation, sondern es wird hier jede Stufe des Zugrunde liegenden Stammbaums oder Dendrogrammes einzeln bewertet. Da jede Stufe einer Hierarchie eine Partition der Objektmenge bildet, lassen sich hierbei die zuvor angegebenen Gütemaße für Partitionen verwenden. 3 Clusteranalyse mit der R Bibliothek cluster Für das Statistik-Programm R wird zur Durchführung einer Clusteranalyse unter anderem die Bibliothek cluster zur Verfügung gestellt. Dieses Paket erlaubt die Verwendung von Verfahren, welche im Buch von Kaufman & Rousseeuw (1990) beinhaltet sind. Zu den darin implementierten Methoden zählt das Programm daisy mit dem man zu einer Datenmatrix eine Distanzmatrix berechnet. Weiters beinhaltet cluster drei Clusterverfahren für Partitionen (pam, clara und fanny) und drei Verfahren für Hierarchien (agnes, diana, mona). Zusätzlich enthält es Programme zur graphischen Aufbereitung der Ergebnisse (bannerplot, pltree, plot, clusplot) und Programme zur Berechnung von Gütemaßen der gefundenen Klassifikation (print, summary, silhouette). Clusterverfahren für Partitionen und für Hierarchien sind in der klassischen Literatur die am häufigsten verwendeten Algorithmen in der Clusteranalyse. Für R bieten die Bibliotheken mva und cclust zusätzlich noch weitere Clusteralgorithmen an, zu denen hclust, cclust und kmeans zählen. Diese Methoden sind jedoch etwas komplexer und werden daher hier nicht weiter diskutiert. 3.1 DAISY Bevor man eine Klassifikation konstruiert, benötigt man eine Distanzmatrix D(X) der Daten X. Diese wird mit daisy für verschiedene Meßniveaus der Variablen berechnet. Variablen vom Typ numeric werden als intervallskaliert angesehen. 6

Variablen vom Typ factor werden als nominalskaliert interpretiert und jene vom Typ ordered als ordinale Variablen. Hat man binäre oder verhältnisskalierte Variablen, kann man diese Information im Aufruf von daisy mittels type angeben. Mit metric kann man steuern, ob die euklidische oder die Manhattan Distanz verwendet werden soll. Diese Angabe ist nur bei intervallskalierten Daten möglich. Die Option stand ermöglicht noch zusätzlich die Standardisierung der Variablen vor der Berechnung deren Distanzen. Hier nun einige beispielhafte Anwendungen: D0 <- daisy(x, type = list(symm = c(1:3))) D1 <- daisy(x, metric = "euclidean", stand = FALSE) D2 <- daisy(x, metric = "manhattan") Die Prozedur daisy berechnet für intervallskalierte Variablen die euklidische oder die Manhattan Distanz. Ordinale Variablen werden durch deren Ränge ersetzt. Danach werden die Ränge standardisiert, d.h. es wird der Rang r ij der j-ten Variablen im i-ten Objekt ersetzt durch z ij = r ij 1 M j 1, mit M j = max i (r ij ), dem größten Rang der j-ten Variablen. Somit sind alle z ij auf (0, 1) standardisiert. Dies ist vor allem sinnvoll, wenn die Variablen verschieden große Werte M haben. Von diesen z ij wird dann die Manhattan Distanz berechnet, relativiert durch die Anzahl der Summanden. Bei verhältnisskalierten Variablen besteht auch die Möglichkeit, eine logarithmische Transformation durchzuführen und darauf die Manhattan Distanz zu berechnen. Will man dies beispielsweise auf die achte Spalte der Datenmatrix anwenden, so wird dies sehr einfach durch (type = list(logratio = 8) ermöglicht. Alternativ kann man diese auch wie ordinale Variablen behandeln und daisy berechnet dann mit type = list(ordratio = 8) dieselben Distanzen wie zuvor. Bei binären Variablen unterscheiden Kaufmann & Rousseeuw zwischen symmetrischen und asymmetrischen Variablen. Im ersten Fall ist das Eintreten der beiden Faktorstufen gleichwertig (z.b. männlich/weiblich). Bei asymmetrischen Variablen ist dies nicht mehr der Fall. Steht beispielsweise die Eins für starker Raucher und Null für einen beliebigen anderen Typ (Nichtraucher, Exraucher, schwacher Raucher), dann haben nur dann zwei Personen dasselbe Rauchverhalten, wenn beide eine Eins haben. Haben beide eine Null, so weist dies noch nicht auf das gleiche Verhalten hin. Zwei Einsen sind somit ähnlicher als zwei Nullen. 7

Hat man symmetrische binäre Variable (type = list(symm = 5)) berechnet R die Distanz als d(i, i n 10 ii ) = + n01 ii. n 11 ii + n 10 ii + n 00 ii + n 01 ii Hier beschreibt n 11 ii die Anzahl, wie viele Variablen j die Eigenschaft x ij = x i j = 1 aufweisen. Weiters ist n 00 ii die Anzahl an Variablen mit x ij = x i j = 0. Schließlich zählt n 10 ii (bzw. n01 ii ) die Häufigkeit von x ij = 1 und x i j = 0 (bzw. x ij = 0 und x i j = 1). Bei asymmetrischen binären Variablen (type = list(asymm = 5)) berechnet sich die Distanz durch d(i, i n 10 ii ) = + n01 ii. n 11 ii + n 10 ii + n 01 ii Hier wird die Anzahl n 00 ii weggelassen, da zwei Nullen bei asymmetrischen Variablen nicht eindeutig für das selbe Verhalten stehen. Ein typisches Beispiel für nominale Variablen ist die Augenfarbe von Personen. Am häufigsten werden die Distanzen dafür durch d(i, i ) = p u p beschrieben. Dabei bezeichnet u die Anzahl wie oft x ij = x i j gilt und p die Anzahl an Variablen in den Daten. Schließlich sei noch vermerkt, dass man mittels daisy auch Distanzen für Objekte mit Variablen verschiedenen Typs berechnen kann. Ein Beispiel dafür wäre type = list(asymm = c(1, 5), ordratio = 2, logratio = c(3, 4)).. 3.2 P Die Prozedur pam berechnet Partitionen. Jedes Cluster enthält zumindest ein Objekt und jedes Objekt muss genau einem Cluster zugeordnet werden. Bei diesen Verfahren muss die Anzahl K der gewünschten Cluster vom Anwender vorgegeben werden. Daher ist es sinnvoll dieses Verfahren für verschiedene Werte von K anzuwenden. Mit silhouette können dann entsprechende Gütemaße berechnet werden und man kann sich schlussendlich für die beste Klassifikation entscheiden. Auch wird man zusätzlich von diversen Graphiken für die Entscheidungshilfe Gebrauch machen. C <- pam(x, K, diss = FALSE, metric = "euclidean", stand = FALSE) plot(c); clusplot(c) 8

Der pam Algorithmus sucht zuerst nach K repräsentativen Objekten (auch medoids genannt), welche die Struktur der Daten bestmöglich wiederspiegeln. Daraufhin werden die restlichen n K Objekte ihren nächsten medoids zugeordnet. Danach wird so lange ein Objekt mit einem medoid ausgetauscht bis das Gütemaß minimal ist. Das heißt, man versucht durch Tausch eines repräsentativen Objekts mit einem beliebigen anderen Objekt eine Verbesserung der Güte der Klassifikation zu erreichen. Bezeichnet h(c k ) die Summe der Distanzen aller Objekte in C k zu deren repräsentativen Objekt, dann wird K g(c) = h(c k ) in der Tausch-Phase minimiert. k=1 3.3 CLARA Dieser Algorithmus wurde für die Analyse großer Datenmengen entwickelt. Ab einer Größe von zirka 100 Objekten ist aus Speicher- und Laufzeitgründen clara zu empfehlen. Der Algorithmus basiert genauso wie pam auf der K-medoid Methode. Als erstes wird eine Stichprobe aus allen Objekten gezogen und diese werden mittels pam auf K Cluster aufgeteilt. Dann wird jedes Objekt das nicht in dieser Stichprobe war seinem nächsten repräsentativen Objekt zugeordnet. So erhält man ein Clustering der gesamten Objektmenge. Danach wird als Gütemaß für die Klassifikation die Summe der durchschnittlichen Distanzen jedes Objektes zu dessen medoid berechnet. Nachdem dies für mehrere Stichproben gerechnet wurde, werden deren Gütemaße verglichen und jenes Clustering mit dem besten Gütemaß als Ergebnis ausgewählt. Es ist noch anzumerken, dass clara als Input nur die Datenmatrix X akzeptiert und nicht eine Distanzmatrix D. C <- clara(x, K, metric = "euclidean", stand = FALSE, samples = 5, sampsize = 40 + 2 * K) 3.4 FANNY Ein weiteres Clusterverfahren für Partitionen ist fanny, welches ein so genanntes weicheres (Fuzzy) Clustering erlaubt. Hier wird ein anderer Algorithmus verwendet als bei pam oder bei clara. C <- fanny(x, K, diss = FALSE, metric = "manhattan", stand = FALSE) 9

Der Output von fanny enthält den Zugehörigkeitsindex u ik des i-ten Objekts zum k-ten Cluster. Dieser Index beschreibt die Wahrscheinlichkeit für das i-te Objekt zum k-ten Cluster zu gehören. Der Algorithmus minimiert dabei iterativ die Funktion K n i =1 u2 ik u2 i k d(i, i ) k=1 n i=1 2 n i =1 u2 i k unter den Nebenbedingungen u ik 0 und k u ik = 1. Dieses nichtlineare Optimierungsproblem mit Nebenbedingungen wird mittels der Lagrangegleichung und den Kuhn und Tucker Bedingungen gelöst. Die Ergebnisse können wie in pam mit plot(c) und clusplot(c) graphisch dargestellt werden. 3.5 AGNES Durch agnes erhält man ein agglomeratives hierarchisches Clustering. In der ersten Hierarchiestufe bildet jedes Objekt ein eigenes Cluster. Bei jeder weiteren Stufe werden dann immer die sich nächsten beiden Cluster zu einem neuen Cluster zusammengefasst bis am Ende nur noch ein großes Cluster mit allen n Objekten übrig bleibt. Im ersten Schritt werden also die beiden Objekte i und i mit minimaler Distanz d(i, i ) zusammengefasst. In weiterer Folge benötigen wir die Distanz zwischen zwei Cluster. Dazu verwendet agnes standardmäßig average linkage. Natürlich können auch complete linkage oder single linkage verwendet werden. Als graphische Darstellung erhält man einen Bannerplot und ein Dendrogramm. C <- agnes(x, diss = FALSE, metric = "euclidean", stand = FALSE, method = "single") plot(c) Man könnte nun annehmen, dass man die Verfahren für Partitionen nicht mehr braucht, da hier alle Partitionen von K = n,..., 1 berechnet werden. Dem ist aber nicht so, denn in hierarchischen Verfahren kann man den Zusammenschluss zweier Cluster auf einer Stufe nicht mehr rückgängig machen. Aus diesem Grund erhält man nicht dieselben Ergebnisse wie beispielsweise mit pam. Hat man einmal zwei Objekte zu einem Cluster zusammengefasst, kann man diese nicht mehr trennen. Diese Starrheit ist ein Vorteil (kurze Rechenzeiten) aber auch zugleich ein Nachteil (keine Möglichkeit der Korrektur falscher Zusammenschlüsse). Hierarchische Methoden beschreiben Daten ganz einfach auf eine andere Art und Weise. 10

3.6 DIANA Das Programm diana ist wie agnes ein hierarchisches Verfahren. Es ist jedoch divisiv, d.h. hierbei sind zuerst alle Objekte in einem einzigen Cluster, das dann solange weiter aufgeteilt wird bis n Cluster resultieren. Als Heterogenitätsmaß wird average linkage verwendet. C <- diana(x, diss = FALSE, metric = "manhattan", stand = TRUE) Zuerst berechnet man zu jedem einzelnen Objekt das Heterogenitätsmaß average linkage zwischen dem Cluster, welches nur das i-te Objekt enthält, zu dem anderen Cluster, das aus allen übrigen Objekten besteht. Jenes Objekt mit der größten Heterogenität bildet dann ein eigenes Cluster. Danach werden die Heterogenitätsmaße für jedes übrig gebliebene Objekt berechnet. Ist das Heterogenitätsmaß von einem Objekt zum abgetrennten Cluster geringer als zu den anderen Objekten, wird es in dieses Cluster verschoben. Im nächsten Schritt wird das größere von den zwei so entstandenen Cluster wieder auf dieselbe Weise gesplittet. Das größte Cluster ist jenes mit der größten Distanz zwischen zwei Objekten. 3.7 MONA Das divisive hierarchische Verfahren mona für ausschließlich binäre Variablen unterscheidet sich von allen bisher vorgestellten Algorithmen. Die Daten werden hier aufgrund nur einer Variablen in Cluster aufgeteilt. C <- mona(x) Im ersten Schritt wird diese zentrale Variable bestimmt. Gewählt wird dafür jene Variable, die zu allen übrigen Variablen am ähnlichsten ist. Für die Variable j werden also Ähnlichkeitsmaße A jg berechnet, wobei g den gesamten Pool der anderen Variablen bezeichnet. Die Ähnlichkeit zwischen der j-ten Variablen und einem Mitglied aus der Gruppe g berechnet sich aus A jg = n 11 jgn 00 jg n 10 jgn 01 jg. Danach wird die Ähnlichkeit der j-ten Variablen zu den übrigen mittels A j = g j A jg 11

charakterisiert. Als zentrale Variable t wird nun jene gewählt, für die diese Summe maximal ist, d.h. A t = max A j. j Der zweite Schritt ist die Bildung der Cluster. Am Anfang sind alle Objekte in einem Cluster. Dieses wird jetzt aufgeteilt indem man alle Objekte mit x it = 0 in ein Cluster gibt, und alle Objekte mit x it = 1 das zweite Cluster bilden. Danach werden diese beiden Cluster solange aufgeteilt, bis jedes Objekt ein eigenes Cluster bildet bzw. bis man Objekte nicht mehr aus Cluster nehmen kann, weil sie gleich sind bezüglich aller Variablen. 4 Antibiotika in der Gülle Ausgangspunkt der Analyse waren 817 multivariate Beobachtungen (Datenzeilen) über die Resistenz von E. Coli Bakterien auf 24 Antibiotika. Als Kodierung der Reaktion wurde sensibel sowie resistent verwendet. Aus sämtlichen Zeilen zu einer Probe werden nun spaltenweise die antibiotikum-spezifischen relativen Häufigkeiten berechnet. Dadurch resultiert eine Datenmatrix mit 103 Zeilen und den jeweiligen 24 mittleren Resistenzfrequenzen. Da unser Interesse jedoch nicht in einer Klassifizierung sämtlicher Betriebe sondern im Auffinden ähnlich reagierender Antibiotika liegt, wurde diese Datenmatrix transponiert. Transponiert wurde sie deshalb, weil man in den Zeilen die Objekte (Antibiotika) benötigt und in den Spalten die Variablen (Proben), die die Objekte beschreiben. Zuerst stellte sich heraus, dass sämtliche Keime auf die Antibiotika C, PT, FOX, CPD, FEP, CTX, CAZ, MEM und AN ausschließlich sensibel reagierten. In der weiteren Analyse werden daher diese neun Antibiotika zu einer repräsentativen Zeile (Cluster) zusammengefasst mit Namen CL1. Weiters wurden auch die beiden Antibiotika CIP und OFL zu einem zweiten Cluster zusammengefasst (mit Namen CL2), da die Keime auf diese beiden Antibiotika auch ident reagierten. Somit werden von nun an nur noch 24 9 = 15 Typen von Antibiotika mittels clusteranalytischer Methoden behandelt. In der Praxis ist es immer vorteilhaft mehr als nur ein Verfahren anzuwenden und dann die erzielten Ergebnisse miteinander zu vergleichen. Zuerst wurde dazu agnes eingesetzt mit average linkage als Heterogenitätsmaß (method). Als Distanz wurde die euklidische Distanz gewählt (metric). Am Beginn eines hierarchischen Clustering bilden alle Objekte ein eigenes Cluster (15 Cluster). Wenn man im Dendogramm der Abbildung 1 von unten nach oben geht, erkennt man zuerst den Zusammenschluss von CXM mit CL1. Diese beiden sind sich also von allen Objekten am ähnlichsten. Das Heterogenitätsmaß beträgt 12

average linkage 0 1 2 3 4 5 6 PIP CL1 CXM NA NOR CL2 GM TM FT CXMAX C Agglomerative Coefficient = 0.79 Abbildung 1: Hierarchisches Clustering der Gülleproben mit average linkage Heterogenität und euklidischer Distanz. dafür nur 0.244 (siehe Tabelle 1). Alle anderen Objekte bilden auf dieser ersten Stufe jeweils noch eigene Cluster (14 Cluster). Als nächstes werden NOR und CL2 zu einem zusätzlichen Cluster zusammengefügt mit einer Heterogenität von 0.300 auf dieser Stufe (13 Cluster). Das dritte Cluster bildet GM mit TM mit einer Verschiedenheit von 0.571 (12 Cluster), u.s.w. Anhand des Dendrogramms kann man auch sofort erkennen, dass sich von allen übrigen Antibiotika stark unterscheidet. Dies liegt darin begründet, dass die Keime eine hohe Resistenzrate aufweisen und in sogar 72 Prozent der Fälle resistent auf reagieren. Betrachtet man das Dendrogramm von oben (das entspricht dem Lesen der Tabelle von unten), so erkennt man, dass bei zwei Cluster (also auf Stufe 13) das Antibiotikum ein Cluster und der Rest der Antibiotika das zweite Cluster bilden. Bei drei Cluster bildet ein Cluster sowie auch, und alle übrigen Antibiotika befinden sich im dritten Cluster. Die Keime sind gegen in zirka 17 Prozent der Fälle resistent. Bei vier Cluster bildet,, /PIP/ jeweils ein Cluster und der Rest das vierte Cluster. Hier ist ersichtlich, dass dieses Ergebnis nicht unbedingt von den Kategorien der Antibiotika abhängt. und PIP sind nämlich Penicilline und gehört zu den Cephalosporinen. Als Gütemaß für dieses Klassifikation verwenden wir den agglomerative coefficient (AC). Dieser bewegt sich zwischen 0 und 1 und ist in unserem Fall gerade 0.79, was auf eine gute Bewertung der gefundenen Clusterstruktur hinweist. 13

Stufe Zusammenschluss Heterogenität Clusteranzahl 1 CL1 CXM 0.244 14 2 NOR CL2 0.300 13 3 GM TM 0.571 12 4 NA1 NOR, CL2 0.779 11 5 CL1, CXM NA, NOR, CL2 0.963 10 6 PIP 1.091 9 7 5 GM, TM 1.212 8 8 7 FT 1.453 7 9 8 CXMAX 1.551 6 10 9 C 1.890 5 11, PIP 2.163 4 12, PIP, 10 2.258 3 13 12 2.563 2 14 13 6.661 1 Tabelle 1: Klassifikationen der verschiedenen Stufen aus agnes mit average linkage Heterogenität und euklidischer Distanz. Als zweite Methode wurde pam angewandt. Dies ist ein Clusterverfahren für Partitionen und etwas flexibler als hierarchische Verfahren. Wie schon erwähnt, können bei hierarchischen Verfahren Objekte bzw. Cluster die einmal auf einer Stufe vereinigt wurden auf den folgenden Stufen nicht mehr getrennt werden. Es ist vorteilhaft diesen Algorithmus für verschiedene Werte von K anzuwenden. Anhand der Gütemaße kann man sich dann für eine Partition entscheiden. pam berechnet für jedes Objekt i ein Gütemaß (silhouette width) s(i), das aussagt wie gut ein Objekt in das Cluster passt. Weiters erhält man ein Gütemaß für jedes Cluster (average silhouette width per cluster s(c k )) und für die gesamte Partition (average silhouette width s(c)). Ein Gütemaß von Eins zeigt ein gutes Clustering an, ein Maß von Null bedeutet dass ein Objekt zwischen zwei Cluster liegt und ein negatives Maß weist darauf hin, dass das Objekt wahrscheinlich dem falschen Cluster zugeteilt wurde. Zuerst wurde eine Partition für K = 2 berechnet. Als Medoide ergaben sich NOR und. Das Ergebnis ist ident dem aus agnes. bildet ein Cluster und alle anderen Antibiotika das Andere. Für die Gütemaße der Cluster erhält man für den Wert 0 (s(c) = 0 für Cluster mit nur einem Objekt) und für Cluster 1 den Wert 0.72. Das Gütemaß für die gesamte Partition beträgt 0.672. Die zweite Partition (K = 3) ergab zuerst das Cluster PIP///, dann als drittes Cluster, und den Rest als zweites Cluster. Die repräsentativen Objekte sind PIP, NOR und. Hier gibt es einen Unterschied zu agnes, was 14

K = 2 K = 3 K = 5 Antib. Cl. Nachb. s(i) Cl. Nachb. s(i) Cl. Nachb. s(i) NOR 1 2 0.798 2 1 0.541 2 1 0.496 CXM 1 2 0.795 2 1 0.534 2 1 0.495 CL1 1 2 0.794 2 1 0.539 2 1 0.499 CL2 1 2 0.788 2 1 0.507 2 1 0.458 TM 1 2 0.769 2 1 0.479 2 1 0.445 NA 1 2 0.756 2 1 0.404 2 1 0.358 GM 1 2 0.755 2 1 0.442 2 1 0.410 FT 1 2 0.730 2 1 0.326 2 1 0.276 CXMAX 1 2 0.719 2 1 0.324 2 3 0.277 C 1 2 0.696 2 1 0.217 2 1 0.127 PIP 1 2 0.694 1 2 0.093 1 2 0.455 1 2 0.632 1 2 0.202 1 3 0.502 1 2 0.586 1 2 0.066 3 1 0.000 1 2 0.570 1 2 0.109 5 1 0.000 2 1 0.000 3 1 0.000 4 3 0.000 Tabelle 2: Ergebnisse aus pam mit K = 2, K = 3 und K = 5 Partitionen. aber der starren Struktur dieses Verfahrens zuzuschreiben ist. Als Gütemaß erhält man für Cluster 1 den Wert 0.118, für das zweite 0.431 und für das Dritte die Null. Das gesamte Clustering hat eine Güte von 0.319. Für den Fall K = 4 (nicht in der Tabelle 2 angeführt) bildet wieder ein Cluster, ein weiteres, das dritte Cluster bildet /PIP/ und das vierte wieder alle übrigen Antibiotika. Dieses Ergebnis ist wieder ident zu jenem mit agnes. Das Gütemaß beträgt hierfür 0.311. Die Partition K = 5 ergibt zusätzlich als eigenes Cluster. Die restliche Struktur bleibt wie für K = 4. Auch hier erhielten wir mit agnes dieselben Ergebnisse. Als average silhouette width erhalten wir 0.319. Für K = 6 liegt dieser Wert nur mehr bei 0.174. Auch für K 7 erhalten wir Werte um 0.200. Die Graphiken in der Abbildung 2 zeigen deutlich, dass das Clustering für K = 2 die Datenstruktur sehr gut wiederspiegelt. Aber auch die Abbildung für K = 3 beschreibt die Daten sehr plausibel. Zu erwähnen bleibt noch, dass die Gütemaße s(i), s(c) und s(p ) immer mit Vorsicht zu interpretieren sind. Diese sollten immer zusammen mit den entsprechenden Graphiken betrachtet werden. Auch die Ergebnisse anderer Clusterverfahren sollten immer berücksichtigt werden um eine passende bzw. sinnvolle Clusterstruktur der Daten erkennen zu können. 15

Clusterplot K=2 Clusterplot K=3 1.5 1.0 0.5 0.0 0.5 TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP 1.5 1.0 0.5 0.0 0.5 TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP 2 0 2 4 6 2 0 2 4 6 These two components explain 84.57 % of the point variability. These two components explain 84.57 % of the point variability. Clusterplot K=4 Clusterplot K=5 1.5 1.0 0.5 0.0 0.5 TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP 1.0 0.5 0.0 0.5 TM GM CL1 CXMCXMAX NOR CL2 NAFT C PIP 2 0 2 4 6 2 0 2 4 6 These two components explain 84.57 % of the point variability. These two components explain 84.57 % of the point variability. Abbildung 2: Partitionierung der Gülledaten, oben für K = 2 (links) und K = 3 (rechts), sowie unten für K = 4 (links) und K = 5 (rechts). 16

Clusterplot K=2 Clusterplot K=3 1.5 1.0 0.5 0.0 0.5 TM GM CXM CL1 CXMAX NOR CL2 NAFT C PIP 1.5 1.0 0.5 0.0 0.5 TM GM CXM CL1 CXMAX NOR CL2 NAFT C PIP 4 2 0 2 4 6 2 0 2 4 6 These two components explain 84.57 % of the point variability. These two components explain 84.57 % of the point variability. Abbildung 3: Fuzzy Partitionierung der Gülledaten für K = 2 (links) und K = 3 (rechts). Als drittes Verfahren wurde fanny berechnet. Dieses Clusterverfahren brachte komplett andere Ergebnisse wie pam und agnes mit sehr schlechten Gütemaßen. Auch die Graphiken in der entsprechenden Abbildung 3 weisen auf fragwürdige Klassifikationen hin. Für K = 2 erhalten wir hier ein Cluster mit ////PIP/C und ein weiteres mit NOR/CL1/CXM/CL2/TM/GM/NA/FT/CXMAX. Das Gütemaß dieser gesamten Klassifikation ergibt hier nur 0.287. Weiters resultiert s() = 0.106 und jene für,,, PIP und C sind sogar negativ. Letzteres weist darauf hin, dass die Objekte wahrscheinlich der falschen Klasse zugeteilt wurden. Für K = 3 und K = 4 beträgt die average silhouette width s(p ) nur mehr 0.095. 5 Antibiotika im Wasser In einer Parallelstudie wurden 390 Wasserproben so wie zuvor analysiert. Diese stammen von 86 Orten, davon 40 aus Brunnen- und 46 aus Oberflächenwasser. Hier kam es nie zu einer Resistenz, und alle Keime reagierten sensibel, bei den 12 Antibiotika PT, CPD, FEP, CTX, CAZ, MEM, GM, AN, TM, NOR, CIP, OFL. Eines davon wird in Folge unter dem Namen CL1 weiterhin verwendet. Jetzt zeigten C und FT ausschließlich dieselben Reaktionen und wir verwendet weiterhin eine davon unter der Bezeichnung CL2. Daher reduziert sich hier die Anzahl unterscheidbarer Antibiotika von 24 sogar auf nur 12. 17

CL1 CL2 CXM FOX average linkage 0 1 2 3 4 C PIP NA CXMAX Agglomerative Coefficient = 0.73 Abbildung 4: Hierarchisches Clustering der Wasserproben mit average linkage Heterogenität und euklidischer Distanz. Das hierarchische Clustering verbindet sofort CL1 und CL2. Da es für die Mitglieder in CL1 niemals und bei denen in CL2 gerade einmal zu einer sensiblen Reaktion gekommen ist, ist dieser erste Schritt auch nachvollziehbar. Die folgenden Verbindungen sind wie für die Ergebnisse bei den Gülleproben zu interpretieren und sind als Dendrogramm in der Abbildung 4 dargestellt. Wendet man das Partitionsverfahren auf die Daten an, so führt dies zu den Ergebnissen in der Abbildung 5. Hier sieht man deutlich, dass bei den Wasserproben das Antibiotikum (mit einer Resistenzrate von über 35%) die Rollen von bei den Gülleproben einnimmt. Die ist in der K = 2 Lösung ganz klar erkenntlich. Erlaubt man K = 3 Cluster, so wird dadurch das Antibiotikum auch abgetrennt. Die Lösung mit K = 4 fasst noch die Antibiotika FOX, CXM und CXMAX zusammen, letzteres wird bei einer weiteren Partition davon wieder abgetrennt. Dieses Ergebnis mit K = 5 ähnelt stark dem Resultat des hierarchischen Clustering in der Abbildung 4 Durch das Fuzzy Clustering fanny ergeben sich auch hier schlechte Gütemaße. Die Ergebnisse für zwei und vier Cluster sind der Abbildung 6 dargestellt. Für K = 2 erhalten wir hier ein Cluster mit //CXMAX// und die übrigen ergeben ein zweites Cluster. Für K = 4 erhält man ein Cluster mit den Antibiotika /PIP/NA/, eines mit C/CL1//CL2, sowie als eigenes Cluster, und letztlich eine Gruppe bestehend aus CXM/CXMAX/FOX. 18

Clusterplot K=2 Clusterplot K=3 1 0 1 2 C PIP NA CL1 CL2 CXM FOX CXMAX 0.5 0.0 0.5 1.0 1.5 2.0 2.5 C PIP NA CL1 CL2 CXM FOX CXMAX 1 0 1 2 3 4 These two components explain 81.8 % of the point variability. 1 0 1 2 3 4 These two components explain 81.8 % of the point variability. Clusterplot K=4 Clusterplot K=5 0.5 0.0 0.5 1.0 1.5 2.0 2.5 C PIP NA CL1 CL2 CXM FOX CXMAX 0.5 0.0 0.5 1.0 1.5 2.0 2.5 C PIP NA CL1 CL2 CXM FOX CXMAX 1 0 1 2 3 4 1 0 1 2 3 4 These two components explain 81.8 % of the point variability. These two components explain 81.8 % of the point variability. Abbildung 5: Partitionierung der Wasserdaten,, oben für K = 2 (links) und K = 3 (rechts), sowie unten für K = 4 (links) und K = 5 (rechts). 19

Clusterplot K=2 Clusterplot K=4 1 0 1 2 C PIP NA CL1 CL2 CXM FOX CXMAX 0.5 0.0 0.5 1.0 1.5 2.0 2.5 C PIP NA CL1 CL2 CXM FOX CXMAX 2 1 0 1 2 3 4 These two components explain 81.8 % of the point variability. 1 0 1 2 3 4 These two components explain 81.8 % of the point variability. Abbildung 6: Fuzzy Partitionierung der Wasserdaten für K = 2 (links) und K = 4 (rechts). 6 Zusammenfassung Mittels der Clusteranalyse wurden 24 zu analysierenden Antibiotika in Gruppen aufgeteilt, und zwar so, dass E. Coli Bakterien auf Antibiotika in einer Gruppe möglichst gleich reagieren (sensibel oder resistent). Die Gruppen die also bei der Clusteranalyse gebildet wurden sind in sich gleichartig und untereinander unterschiedlich. Dies wurde mittels Homogenitäts- und Heterogenitätsmaße belegt bzw. durch graphische Auswertungen dargestellt. Als Klassifikationstypen wurden in dieser Analyse die Partition und die Hierarchie gewählt. Dies bedeutet, dass in den Cluster jedes Antibiotikum nur einmal auftreten darf. Gülle: Wegen gleicher Keimreaktionen wurden die Antibiotika C, PT, FOX, CPD, FEP, CTX, CAZ, MEM und AN zu Cluster CL1 zusammengefasst. Auch die Antibiotika CIP und OFL wurden in CL2 umbenannt, da sie ausnahmslos gleiche Reaktionen hervorgerufen haben. Somit erfolgte nur mehr eine Gruppierung von 15 unterschiedlichen Antibiotika. Aufgrund der Ergebnisse des hierarchischen Verfahrens sowie den Partitionen bzw. wegen der daraus resultierenden Gütemaße und graphischen Auswertungen, ist für die Gülledaten das Clustering der Antibiotika in drei Gruppen am sinnvollsten (das Gütemaß beträgt dafür 0.319). Die erste Gruppe wird von PIP/// gebildet, die zweite beinhaltet NOR/CXM/CL1/CL2/TM/NA/GM/FT/CXMAX/C und gänzlich unterschiedlich dazu ist die dritte Gruppe mit. Die Clusteranalyse hat hierbei also die zu untersuchenden Antibiotika in eine große und zwei kleinere Gruppen aufgeteilt, die sich alle stark von einander unterscheiden. 20

Wasser: Da sich die Menge der Antibiotika, auf welche die Keime aus dem Wasser ausnahmslos sensibel regieren, von denen zuvor unterscheiden, kann auch nur schwer ein unmittelbarer Vergleich der Ergebnisse angestellt werden. So konnte im Wasser keine Resistezreaktion der Keime auf die Antibiotika PT, CPD, FEP, CTX, CAZ, MEM, GM, TM, AN, NOR, CIP, OFL beobachtet werden. Diese wurden daher zum Cluster CL1 zusammen gegeben. Gleiche Reaktionen zeigtemn die Keime auf C und FT, welche das Cluster CL2 bildeten. Die Ergebnisse beziehen sich in diesem Fall also nur auf die verbleibenden 13 Antibiotika. Von diesen bilden die beiden Antibiotika sowie immer ganz deutlich zwei eigene Cluster. Zwei weitere Cluster sind durch CXM/FOX sowie durch CXMAX definiert. Alle übrigen Antibiotika, das sind /C/PIP/CL1/CL2//NA, bilden noch eine größere fünfte Gruppe. Literatur Kaufman, L., Rousseeuw, P.J. (1990): Finding Groups in Data: An Introduction to Cluster Analysis. Wiley, New York. Hartung, J., Elpelt, B. (1986): Multivariate Statistik: Lehr und Handbuch der angewandten Statistik. Oldenburg, München. 21