Clusteranalyse von Nachrichtenartikeln

Größe: px
Ab Seite anzeigen:

Download "Clusteranalyse von Nachrichtenartikeln"

Transkript

1 Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln vorgelegt von: Alena Tabea Geduldig

2 Inhaltsverzeichnis 1. Einleitung 2. Dokumentenähnlichkeit 2.1 Dokumentvektoren 2.2 Distanzmaße für Vektoren 3. Durchführung einer Clusteranalyse 3.1 Erstellung des Korpus 3.2 Merkmalsreduzierung und Erzeugen der Dokumentvektoren 3.3 Der K-Means Algorithmus 4. Evaluation und Fazit 4.1 Purity 4.2 Rand Index 4.3 Fazit

3 1. Einleitung Im Allgemeinen wird die Clusteranalyse verwendet, um große Mengen von Elementen zu sortieren. Mit Hilfe der Clusteranalyse sollen Zusammenhänge und Strukturen innerhalb einer Datenmenge aufgedeckt und die einzelnen Objekte in sinnvolle Gruppen (Cluster) unterteilt werden. Hierbei soll dem Anspruch gerecht werden, dass Objekte desselben Clusters sich besonders ähnlich, Objekte verschiedener Cluster besonders unähnlich sind. Die Clusteranalyse hat demzufolge das Ziel, eine große heterogene Gruppe von Elementen unbekannter Ordnung, in mehrere kleine homogene Cluster zu sortieren. Aus diesem Anspruch ergeben sich zwei grundlegende Überlegungen, die zur Durchführung einer Clusteranalyse notwendig sind: Zum einen muss entschieden werden, hinsichtlich welcher Merkmale die Objekte betrachtet und gruppiert werden sollen. Je nach Anwendungsfall und praktischem Ziel der Clusteranalyse, können die Merkmale der Objekte unterschiedlich gut geeignet sein. Zum anderen setzt der Vergleich verschiedener Objekte ein zuverlässiges Maß voraus, mit dem über den Abstand bzw. die Ähnlichkeit zweier Objekte zueinander entschieden werden kann. (vgl. Heyer, S. 196) In dieser Hausarbeit soll die Clusteranalyse als ein Verfahren zur Sortierung von Dokumenten vorgestellt werden. Konkret wird ein Versuch unternommen, Artikel der Nachrichten- Webseite Spiegel-Online 1 sinnvoll zu clustern. In diesem Fall gilt es also zu entscheiden, welche Merkmale sich zur Strukturierung von Textdokumenten eignen und mit welchem Maß ihre Ähnlichkeit bezüglich dieser Merkmale bestimmt werden soll. Im ersten Teil dieser Hausarbeit wird deshalb eine Methode vorgestellt, Textdokumente so aufzubereiten und zu repräsentieren, dass sie ihre inhaltlich relevanten Merkmale so ausdrücken, dass die Nähe zweier Dokumente zueinander messbar wird. Auf dieser Basis wird im Anschluss die eigentliche Clusteranalyse durchgeführt und der ihr zu Grunde liegende Algorithmus, der K- Means-Algorithmus, erläutert. Die Ergebnisse der Analyse werden im letzten Teil dieser Hausarbeit vorgestellt und evaluiert. 1 Link der Webseite: 2

4 2. Dokumentenähnlichkeit Voraussetzung für die erfolgreiche Durchführung einer Clusteranalyse ist die Auswahl geeigneter Merkmale, bezüglich derer die Elemente miteinander verglichen werden sollen. Die Ähnlichkeit von Textdokumenten kann anhand verschiedener Kriterien festgelegt werden. Denkbar wäre, die Länge der Dokumente als Vergleichsmerkmal zu wählen. Ein adäquates Ähnlichkeitsmaß wäre dann die Differenz der in zwei Dokumenten enthaltenen Wörter. Je kleiner diese Zahl ist, desto ähnlicher sind sich zwei Dokumente. Dies ist zwar eine simple Methode und bedarf nur geringem Aufwand, leistet jedoch auch keinen großen praktischen Nutzen. Wünschenswert wäre stattdessen, die Ähnlichkeit von Texten auf Grund ihrer Inhalte zu bewerten. Zwei Dokumente sollen als umso ähnlicher gelten, desto näher ihre thematischen Inhalte semantisch beieinander liegen. Doch mit welchem Distanzmaß soll die semantische Nähe zweier Dokumente automatisch bestimmt werden? Sie lässt sich schließlich nicht ohne weiteres in Zahlen ausdrücken, wie es bei der reinen Länge von Dokumenten möglich ist. Um die thematische Nähe von Dokumenten dennoch miteinander vergleichen zu können, werden sie zu numerischen Vektoren, sogenannten Dokumentvektoren verarbeitet. Die Ähnlichkeit zweier Dokumente entspricht dann der Nähe ihrer Dokumentvektoren und kann mit Hilfe eines Distanzmaßes für Vektoren berechnet werden. Mit Hilfe der paarweisen Dokumentähnlichkeiten, vergleicht ein Clustering-Algorithmus die Ähnlichkeit zwischen Mengen von Dokumenten. Das Ergebnis ist eine Einteilung aller Dokumente in thematisch ähnliche Teilmengen. In den folgenden Abschnitten wird zunächst erläutert, wie die hierfür benötigten Dokumentvektoren generiert werden können, so dass sie den Ansprüchen der Clusteranalyse genügen. Anschließend werden zwei Distanzmaße vorgestellt, die zur Berechnung ihrer Ähnlichkeiten verwendet werden können. 2.1 Dokumentvektoren Da Dokumentvektoren einen Text hinsichtlich ihres Themas repräsentieren sollen, werden sie auf Grundlage der im Text enthaltenen Wörter generiert. Die einzelnen Wörter eines Textes definieren zwar seinen Inhalt, dies jedoch mit unterschiedlicher Intensität. Nicht jedes Wort beschreibt den Inhalt eines Textes gleichermaßen gut und treffend. Ziel ist es daher, jedem Wort der zu clusternden Dokumentmenge einen Wert zuzuweisen, der seine 3

5 Wichtigkeit für ein Dokument zum Ausdruck bringt. Diese Werte sollen schließlich als Einträge der Dokumentvektoren fungieren. Ausgangspunkt zur Berechnung eines solchen Wertes, bilden die folgenden Annahmen: 1. Die Termfrequenz (tf) eines Wortes beschreibt die Anzahl seines Vorkommens innerhalb eines Textes. Je höher die Termfrequenz eines Wortes ist, das heißt je öfter es im Dokument verwendet wird, desto mehr Aussagekraft besitzt es über diesen Text. 2. Die Dokumentfrequenz (df) eines Wortes beschreibt die Anzahl der Dokumente eines Korpus, in denen es mindestens einmal auftritt. Je niedriger die Dokumentfrequenz eines Wortes ist, desto mehr Aussagekraft besitzt es über den Text der es enthält. Die Wichtigkeit eines Wortes für ein Dokument wird auf Basis der tf und df Werte bestimmt. Um für wichtige Wörter einen hohen Wert zu erzielen und für unwichtigere einen niedrigeren Wert, wird die Dokumentfrequenz invertiert und anschließend, um den Wertebereich gering zu halten, logarithmiert: = d beschreibt hierbei die Anzahl aller Dokumente des betrachteten Korpus. Da die Texte für eine Clusteranalyse oft unterschiedlich lang sind, sind auch die Termfrequenzen der Wörter unterschiedlich zu interpretieren. Ein Wort mit einer Termfrequenz von fünf ist für ein sehr kurzes Dokument höher zu bewerten, als für ein sehr langes Dokument. Die Termfrequenz muss daher relativ zur Länge des Dokuments interpretiert werden. Dies wird durch die Normalisierung der Termfrequenz gewährleistet: maxtf bezeichnet hierbei die Termfrequenz des häufigsten Wortes im Dokument. Aus der inversen Dokumentfrequenz idf und der normalisierten Termfrequenz ntf, kann nun für jedes Wort (t) seine Wichtigkeit (w) für ein Dokument (d) wie folgt berechnet werden: 4

6 Je höher dieser Wert ist, desto aussagekräftiger ist es für den Inhalt des Dokuments. Tritt ein Wort keinmal innerhalb des Dokumentes auf, wird ihm entsprechend der Formel der Wert 0 zugewiesen. Der zu einem Dokument gehörende Vektor wird nun wie folgt generiert: Jedes im gesamten Korpus vorkommende Wort steht für eine Dimension des Vektors. (Die Reihenfolge spielt hierbei keine Rolle, muss aber für jeden Vektor gleich bleiben.) Die Vektoren haben folglich alle dieselbe Dimension, welche durch die Anzahl der verschiedenen Wörter im Korpus festgelegt ist. Die einzelnen Einträge des Dokumentvektors ergeben sich aus dem Wert der Wichtigkeit jedes Wortes w(t,d). Mit Hilfe eines Distanzmaßes für Vektoren, kann nun auch die Ähnlichkeit zweier Dokumente zueinander bestimmt werden. Sie entspricht der Distanz der zugehörigen Dokumentvektoren. (Zu Abschnitt 2.1 vgl. Heyer 2008, Kap. 5.2) 2.2 Distanzmaße für Vektoren Die Mathematik stellt eine Reihe verschiedener Maße zur Berechnung der Distanz zweier Vektoren bereit. Distanzmaße liefern zu je zwei Vektoren einen numerischen Wert, welcher die Ähnlichkeit beider Vektoren zueinander ausdrückt. Das Kosinus-Maß definiert die Ähnlichkeit zweier Vektoren durch den zwischen ihnen eingeschlossenen Winkel: cos, = cos ( ) = =1 2 =1 2 =1 Entscheidend für ihre Ähnlichkeit ist folglich nur die Richtung der beiden Vektoren. Soll auch deren Länge berücksichtigt werden, kann die euklidische Distanz verwendet werden, = =1 ( ) 2 5

7 (Formeln aus Heyer 2008, S. 206) Im zweidimensionalen Fall entspricht sie genau dem physikalischen Abstand der zugehörigen Punkte im Koordinatensystem. Ein hoher Wert steht hier im Gegensatz zum Kosinus-Maß also für Unähnlichkeit. Je kleiner die euklidische Distanz zwischen zwei Dokumentvektoren ist, desto ähnlicher sind sich die entsprechenden Dokumente. 3. Durchführung einer Clusteranalyse Im Folgenden soll die Clusteranalyse von Textdokumenten anhand eines konkreten Beispiels erläutert werden. Als Grundlage dienen hierfür Artikel der Nachrichtenwebseite Spiegel- Online. Mit Hilfe von Dokumentvektoren und dem Clustering-Algorithmus K-Means wird der Versuch unternommen, eine große Menge unterschiedlicher Artikel aus verschiedenen Ressorts thematisch zu sortieren. Unter der Annahme, dass die thematische Ähnlichkeit der Artikel durch die verschiedenen von Spiegel-Online verwendeten Ressorts wiedergespiegelt wird, lässt sich bereits im Voraus ein optimales und anzustrebendes Ergebnis festlegen: Im besten Fall werden die Zusammengehörigkeiten der Artikel eines Ressorts erkannt und zu einem eigenen Cluster zusammengefasst. Das Ergebnis sollte also der von Spiegel-Online verwendeten Kategorisierung entsprechen. 3.1 Erstellung des Korpus Zum Clustern der Onlineartikel ist es notwendig, ihre textuellen Inhalte in einem zur Weiterverarbeitung geeigneten Korpus zu speichern. Diese Aufgabe wurde von einem Programm zum Webcrawling übernommen. Ausgehend von den URLs der relevanten Webseiten, ermittelt dieses Programm ihre textuellen Inhalte und speichert die so gewonnenen Artikel in separaten Textdateien ab. Zusätzlich wird jedes Dokument mit einem Thema-Attribut ausgezeichnet, welches dem von Spiegel-Online vorgegebenem Ressort entspricht. Es dient der anschließenden Evaluation des Clusterergebnis. Insgesamt wird auf diese Weise ein Korpus bestehend aus 89 Nachrichtenartikeln aus den vier verschiedenen Ressorts Auto, Politik, Netzwelt und Sport erstellt, wobei jedes Ressort in etwa gleich stark vertreten ist. 6

8 3.2 Merkmalsreduzierung und Erzeugen der Dokumentvektoren Bevor aus den einzelnen Artikeln nun Dokumentvektoren generiert werden, empfiehlt es sich die Anzahl der hierfür einbezogenen Wörter auf ein Minimum zu reduzieren. Nicht alle Wörter im Korpus eignen sich gleichermaßen gut, um die Unterschiede und Gemeinsamkeiten der Dokumente herauszustellen. Eine Merkmalsreduzierung hat das Ziel, nur die für den Korpus ausreichend relevanten Wörter in die Analyse mit einzubeziehen. Funktionswörter können als unbrauchbar für den Vergleich der Artikels betrachtet werden, da sie in jedem Artikel mit einer ähnlich hohen Häufigkeit vorkommen und keinen eigenständigen semantischen Inhalt besitzen. Mit Hilfe eines Tokenizers werden die Artikel deshalb zunächst in ihre Worteinheiten zerlegt und alle Funktionswörter aus den Texten entfernt. Hierfür wird eine Stoppwortliste zur Hilfe genommen, welche die häufigsten im Deutschen verwendeten Funktionswörter beinhaltet. Die einzelnen Terme werden mit den Einträgen der Stoppwortliste abgeglichen und im Falle einer Übereinstimmung entfernt. Auf diese Weisen können die Nachrichtenartikel auf ihre bedeutungstragenden Wörter reduziert und die Gesamtzahl der Terme deutlich gesenkt werden. In einem weiteren Schritt werden die Dokumente nun von einem Stemmer bearbeitet. Ein Stemmer hat die Funktion flektierte Wortformen auf ihren Wortstamm zurückzuführen. Auf diese Weise werden unterschiedliche morphologische Varianten eines Wortes in eine identische Form gebracht und folglich zu einer Merkmalsdimension zusammengefasst. Die gemeinsame Bedeutung dieser Wörter wird erkannt und gewinnt somit an Gewicht. Ein Artikel über Bücher, indem das Wort Buch zwar häufig, jedoch in unterschiedlichen Varianten wie Buch, Bücher, Büchern, Buches auftritt, verdeutlicht den Nutzen, der durch das Stemming erzielt werden kann. Würden die Flexionsformen nicht auf ihre Grundform zurück geführt werden, würde jede Form einzeln betrachtet werden und nur eine geringe Termfrequenz und somit einen niedrigen Wert für die Wichtigkeit des Dokumentes erzielen. Durch das Stemming werden die Formen jedoch identisch und die Termfrequenzen aller Varianten des Wortes aufsummiert. Als letzte Einschränkung wird außerdem eine Mindesthäufigkeit festgelegt, mit der ein Wort im gesamten zu analysierenden Korpus auftreten muss, um in die Clusteranalyse mit einzufließen. Kommt ein Wort im Korpus nicht häufig genug vor, soll es unberücksichtigt 7

9 bleiben, denn nur Wörter, die im Korpus ausreichend stark vertreten sind, eignen sich auch für den Vergleich der Dokumente: Die ur ei al orko e de Wortfor e kö e ü erhaupt i ht zu Dokumentenvergleich genommen werden, weil sie eben nur in einem Dokument vorkommen. Wortformen mit nur zwei Vorkommen kommen (höchstens) in zwei Dokumenten vor und können so nur eine Aussage über die Ähnlichkeit dieser beiden Doku e te a he us. Heyer, S. Als Ergebnis dieser Merkmalsreduzierung, liegen die Texte nun nicht mehr in ihrer ursprünglichen, für den menschlichen Leser gedachten Form vor, sondern in einer zur maschinellen Verarbeitung geeigneten Form, die allein an der Semantik der Texte orientiert ist. Vor der Merkmalsreduzierung bestand der Korpus aus 89 Nachrichtenartikeln mit insgesamt verschiedenen Wortformen. Im Anschluss verbleiben relevante Terme, die tatsächlich zur Analyse herangezogen werden. Auf Basis dieser Wörter werden schließlich, nach dem oben beschrieben Verfahren, die Dokumentvektoren generiert. Ein Vektor besteht folglich aus Dimensionen, wobei jede Dimension für eines der relevanten Wörter steht. Ihre Einträge entsprechen dem Wichtigkeitswert dieses Wortes für das entsprechende Dokument. Je besser ein Wort einen Artikel thematisch beschreibt, desto stärker fällt seine Dimension ins Gewicht des zugehörigen Dokumentvektors. 3.3 Der K-Means-Algorithmus Auf Basis der Dokumentvektoren kann nun die eigentliche Clusteranalyse erfolgen: Eine Einteilung der Nachrichtenartikel in thematisch ähnliche Teilmengen. Als optimales Ergebnis soll hierbei eine Unterteilung der Artikel in ihre vier unterschiedlichen Kategorien gelten. Jede Teilmenge sollte im besten Fall alle zu einem Ressort gehörenden Artikel enthalten. Da die Zugehörigkeit zu einer Kategorie und somit zu einem der Cluster eindeutig durch Spiegel- Online festgelegt ist, eignet sich ein hartes Clusterverfahren wie der K-Means-Algorithmus. Im Gegensatz zu weichen Verfahren, wird jedes Element hier eindeutig einem Cluster zugeordnet. Weiche Verfahren erlauben hingegen mit der Angabe von Wahrscheinlichkeiten die Zugehörigkeit zu mehreren Clustern. Eine Annäherung an das optimale Ergebnis setzt außerdem eine vorab festgelegte Anzahl von vier Clustern voraus. 8

10 Der K-Means-Algorithmus arbeitet mit einem iterativen Verfahren. Ausgehend von einer initialen Clustereinteilung werden die Clusterzugehörigkeiten sukzessive verbessert. Zu Beginn wird für jedes der 4 zu bildenden Cluster ein zufälliger Dokumentvektor als dessen Mittelpunkt (Zentrum) festgelegt. Die eigentliche Berechnung der Cluster erfolgt dann durch die wiederholte Ausführung der folgenden zwei Schritte: 1. Unter Verwendung eines Distanzmaßes wird jeder Dokumentvektor dem Cluster zugeordnet, dessen Zentrum er am nächsten liegt. 2. Zu jedem Cluster wird sein neuer Zentrumsvektor aus den Mittelwerten seiner Mitglieder bestimmt. (Die Clusterzentren bilden somit nicht mehr konkrete Dokumente des Korpus, sondern hypothetische Dokumentvektoren, die als Prototypen der Cluster beschrieben werden können.) Auf diese Weise werden die Clusterzugehörigkeiten mit jedem Durchgang optimiert. Der Algorithmus terminiert, sobald die Schritte 1 und 2 keine Veränderungen in der Clustereinteilung mehr bewirken. 4. Evaluation und Fazit Gemessen an der als optimal angenommen Einteilung sollen die tatsächlichen Ergebnisse der Clusteranalyse nun evaluiert werden. Hierfür werden zwei verschiedene Messwerte zur Bestimmung der Güte eines Clusterergebnisses herangezogen. Beide Werte drücken aus, wie stark ein Ergebnis von der als richtig vorausgesetzten Sortierung abweicht. Da die Texte bereits bei der Korpuserstellung mit ihrem Ressort ausgezeichnet wurden, kann die Evaluation hier rein maschinell erfolgen, was gerade bei großen Korpora wie dem hier verwendeten von Vorteil ist. Dies ist jedoch nur möglich, da bereits im Voraus bestimmte Kategorien als gültig vorausgesetzt werden und nur an diesen Kategorien kann sich eine Evaluationskomponente orientieren. Abweichungen hiervon werden grundsätzlich als falsch bewertet, unabhängig davon, wie eine Beurteilung aus menschlicher Sichtweise ausfallen könnte und von der tatsächlichen Nähe der Dokumentvektoren. Hier wird also nur extern evaluiert, ob und wie gut sich das Clusteringverfahren zur Aufdeckung bestimmter Strukturen eignet. Im Gegensatz dazu, kann eine interne Evaluation auch auf Elemente mit 9

11 unbekannter Ordnung angewendet werden. Hier werden die Distanzverhältnisse innerhalb eines und zwischen den verschiedenen Clustern überprüft. 3.1 Purity Eine Möglichkeit zur externen Evaluation von Clusterergebnissen ist die Berechnung des Purity-Maßes. Purity kann in diesem Zusammenhang mit Reinheit übersetzt werden, denn es bewertet die Reinheit (Einheitlichkeit) der einzelnen Cluster. Jedes Cluster wird hierzu mit der Kategorie (in diesem Fall also dem Ressort) ausgezeichnet, das am stärksten in ihm vertreten ist. Alle demnach richtig zugeordneten Elemente werden gezählt und aus jedem Cluster summiert. Der Purity-Wert entspricht dann dem Verhältnis der korrekt zugeordneten Dokumente zur Gesamtdokumentmenge: (Ω, C) = Ω = {w 1, w 2,..., w k } bezeichnet hierbei die Menge aller Cluster, C = {c 1, c 2,, j } die Menge aller Kategorien (Ressorts) und die Gesamtdokumentmege. (vgl. Manning 2008, S. 328) 3.2 Rand Index Der Rand Index misst das Verhältnis zwischen den richtig getroffenen Entscheidungen zu allen Entscheidungen des Clustering-Algorithmus. Richtige Entscheidungen (R) wurden dann getroffen, wenn zwei Elemente aus demselben Spiegel-Ressort auch in dasselbe Cluster eingeteilt wurden (true positive) und wenn zwei Dokumente aus verschiedenen Ressorts auch in verschiedene Cluster geteilt wurden (true negative). Die Zahl der Fehlentscheidungen (F) entspricht der Anzahl der Dokumentenpaare, die entweder aus demselben Ressort kommen, aber in verschiedene Cluster geteilt wurden (false negative), oder im selben Cluster liegen, aber unterschiedlichen Ressorts entstammen (false positive). = + = Beide Maße liegen im Wertebereich von 0 bis 1, wobei 1 der exakten Übereinstimmung mit den Referenzkategorien entspricht. (vgl. Manning 2008, S. 329) 10

12 3.3 Fazit Die Zeitungsartikel wurden in mehreren Durchgängen geclustert. Einige wurde das Kosinus- Maß als Distanzmaß für den Algorithmus verwendet und einige Male die euklidische Distanz. Außerdem wurde die Mindesthäufigkeit, mit der ein Wort im Korpus auftreten muss, um berücksichtigt zu werden, variiert. Die Ergebnisse sind in der folgenden Tabelle dargestellt (Hervorgehoben sind die jeweils besten Werte der Distanzmaße): Mindesthäufigkeit Kosinus-Maß eukl. Distanz Purity RI Purity RI 0 0,730 0,775 0,292 0, ,719 0,769 0,303 0, ,764 0,797 0,416 0, ,787 0,812 0,326 0, ,809 0,821 0,382 0, ,674 0,743 0,348 0,326 Während mit der euklidischen Distanz nur unterdurchschnittliche Ergebnisse erzielt wurden, kommen die Ergebnisse unter Verwendung des Kosinus-Maß sehr nah in die tatsächliche Kategorisierung in Zeitungsressorts heran. Bei einer Mindesthäufigkeit von acht konnte ein Puritywert von 0,809 und ein Rand Index von 0,821 erreicht werden, was einer sehr guten Annäherung an die tatsächlichen Kategorien entspricht. Das Ergebnis zeigt, dass ein Vergleich der Richtung der Dokumentvektoren nicht nur ausreicht um thematisch ähnliche Dokumente zu ermitteln, sondern eine zusätzliche Berücksichtigung der Vektorenlängen das Ergebnis sogar deutlich verzerren kann. Im besten Durchgang wurden vier Cluster der Größen 17, 35, 20 und 17 erzeugt. Die Unterschiede zur Referenzeinteilung kommen also offenbar dadurch zustande, dass ein Cluster zusätzliche Artikel umfasst, die eigentlich einem anderen Ressort angehören, aus Sicht des Clusteringalgorithmus aber mehr Ähnlichkeit mit den Artikeln eines fremden Ressorts aufweisen. Als Erklärung hierfür wären verschiedene Gründe denkbar. Inhalte können Ressortübergreifend auftreten und sich nur in der Sichtweise auf ein Thema unterscheiden. Wird das gemeinsame Thema richtig erkannt, werden die Artikel, im Sinne des Algorithmus, dennoch zusammengefasst. Zu 11

13 berücksichtigen ist also, dass die Clusteranalyse im Allgemeinen nicht das Ziel hat, vordefinierte Kategorien richtig zu erkennen, sondern innere, undefinierte Strukturen aufzudecken. Mit Hilfe des vorausgezeichneten Versuchskorpus konnte aber gezeigt werden, dass das Verfahren in der Lage ist zwischen gängigen Zeitungsressorts zu differenzieren und die thematischen Zusammenhänge zwischen Artikeln eines Ressorts in den meisten Fällen erkennt. 12

14 4. Literaturverzeichnis HEYER, Gerhard/ Quasthoff, Uwe/ Wittig, Thomas (2008) Text Mining: Wissensrohstoff Text, Herdecke, Witten: W3L-Verlag. MANNING, Christopher/ Raghavan, Prabhakar/ Schütze, Hinrich (2008) Introduction to Information Retrieval, Cambridge University Press. 13

15 . 14

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Midas Metadata yield by Data Analysis

Midas Metadata yield by Data Analysis Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die

Mehr

Tutorial: Balken- und Tortendiagramm

Tutorial: Balken- und Tortendiagramm Tutorial: Balken- und Tortendiagramm In der Tabelle ist die Notenverteilung von 510 Teilnehmern an Mathematik Proseminaren angegeben (NA bedeutet einen unbekannten Wert). Der Sachverhalt sollte in zwei

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Data Mining Cup Dokumentation

Data Mining Cup Dokumentation Data Mining Cup 2012 - Dokumentation Martin Dreissig, Michael Flau May 14, 2012 1 Beschreibung der zu analysierenden Daten Die zu analysierenden Daten für den diesjährigen Data Mining Cup bestehen aus

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Korrespondenzanalyse

Korrespondenzanalyse Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung

Mehr

1 Einleitung. 2 Clustering

1 Einleitung. 2 Clustering Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung

Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung Zusammenfassung der Diplomarbeit an der Hochschule Zittau/Görlitz Maria Kiseleva Motivation

Mehr

Skript zum Kurz-Referat:

Skript zum Kurz-Referat: Prof. Dr. Klaus-Jürgen Tillmann/ Michael Lenz WS 2001/02 Fakultät für Pädagogik (AG 4) der Universität Bielefeld Seminar: Anlage und : Der pädagogische Streit seit den 50er-Jahren 7. Sitzung: Die Erblichkeit

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Kritische Werte für den U-Test bei grossen Stichprobenumfängen. Berechnung einer umfangreichen U-Wertetabelle. Studie

Kritische Werte für den U-Test bei grossen Stichprobenumfängen. Berechnung einer umfangreichen U-Wertetabelle. Studie Berechnung einer umfangreichen U-Wertetabelle Studie Autor: Helmut Vetter Ort, Datum: Arlesheim, 04.10.015 Diese Arbeit wurde mit TexLive erstellt. Kritische Werte für den U-Test bei grossen Stichprobenumfängen

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Übungen mit dem Applet. by Michael Gärtner

Übungen mit dem Applet. by Michael Gärtner Übungen mit dem Applet by Michael Gärtner Betreuer: Prof. Dr. Wilhelm Kleppmann Abgabe: 20. October 2006 Inhaltsverzeichnis 1 Prinzip der kleinsten Quadrate 4 2 Quadrierte Abweichungen und Bestimmtheitsmaÿ

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe

Mehr

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained

Mehr

Parallele Algorithmen in der Bildverarbeitung

Parallele Algorithmen in der Bildverarbeitung Seminar über Algorithmen - SoSe 2009 Parallele Algorithmen in der Bildverarbeitung von Christopher Keiner 1 Allgemeines 1.1 Einleitung Parallele Algorithmen gewinnen immer stärker an Bedeutung. Es existieren

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 7 11. Mai 2010 Kapitel 8. Vektoren Definition 76. Betrachten wir eine beliebige endliche Anzahl von Vektoren v 1, v 2,..., v m des R n, so können

Mehr

7 Einteilung der Vergleiche

7 Einteilung der Vergleiche 62 7 Einteilung der Vergleiche Man kann Vergleiche vergleichen, um Gleichheit und Ungleichheit der Vergleiche zu erkennen. Gleichheit der Vergleiche besteht in Hinsicht auf die Eigenschaften, die in der

Mehr

Bildverarbeitung Herbstsemester. Mustererkennung

Bildverarbeitung Herbstsemester. Mustererkennung Bildverarbeitung Herbstsemester Herbstsemester 2009 2012 Mustererkennung 1 Inhalt Einführung Mustererkennung in Grauwertbildern Ähnlichkeitsmasse Normalisierte Korrelation Korrelationskoeffizient Mustererkennung

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

Was sind Zusammenhangsmaße?

Was sind Zusammenhangsmaße? Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

Lineares Gleichungssystem - Vertiefung

Lineares Gleichungssystem - Vertiefung Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus

Mehr

(c) x = a 2 b = ( ) ( ) = Anzahl der Teiler von x: τ(x) = (1 + 1) (3 + 1) (1 + 1) (7 + 1) = 128

(c) x = a 2 b = ( ) ( ) = Anzahl der Teiler von x: τ(x) = (1 + 1) (3 + 1) (1 + 1) (7 + 1) = 128 Aufgabe 1 Wir betrachten die beiden Zahlen a = 57 101 3 und b = 3 57 79 101 (4+2+4=10 Punkte) ( Es gilt: 3, 57, 79, 101 P ) Hier liegt ein Fehler in der Aufgabenstellung vor, denn wegen 57 = 3 19 ist 57

Mehr

Stochastische Approximation des Value at Risk

Stochastische Approximation des Value at Risk Stochastische Approximation des Value at Risk Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit die sogenannte Solvency-II-Richtlinie der Versicherungsaufsicht.

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Exemplar für Prüfer/innen

Exemplar für Prüfer/innen Exemplar für Prüfer/innen Kompensationsprüfung zur standardisierten kompetenzorientierten schriftlichen Reifeprüfung AHS Juni 2015 Mathematik Kompensationsprüfung Angabe für Prüfer/innen Hinweise zur Kompensationsprüfung

Mehr

9. Vorlesung Lineare Algebra, SVD und LSI

9. Vorlesung Lineare Algebra, SVD und LSI 9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent

Mehr

Kapitel VI. Euklidische Geometrie

Kapitel VI. Euklidische Geometrie Kapitel VI. Euklidische Geometrie 1 Abstände und Lote Wiederholung aus Kapitel IV. Wir versehen R n mit dem Standard Skalarprodukt x 1 y 1.,. := x 1 y 1 +... + x n y n x n y n Es gilt für u, v, w R n und

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

Berechnung von Abständen

Berechnung von Abständen 3. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 3.4. Es sei G = (V, E) ein Graph. Der Abstand d(v, w) zweier Knoten v, w V ist die minimale Länge eines Weges von v nach w.

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

1 Zahlentheorie. 1.1 Kongruenzen

1 Zahlentheorie. 1.1 Kongruenzen 3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10 Agenda: 1: Klassifizierung allgemein 2: der naive Bayes-Klassifizierer 3: Beispiel 4: Probleme 5: Fazit 6: Quellen 1: Klassifizierung allgemein: 1: Klassifizierung allgemein: - Einordnung von Objekten

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung? Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße Von Florian Modler In diesem Artikel möchte ich einen kleinen weiteren Exkurs zu meiner Serie Vier Wahrscheinlichkeitsverteilungen geben

Mehr

} Symmetrieachse von A und B.

} Symmetrieachse von A und B. 5 Symmetrieachsen Seite 1 von 6 5 Symmetrieachsen Gleicher Abstand von zwei Punkten Betrachtet man zwei fest vorgegebene Punkte A und B, drängt sich im Zusammenhang mit dem Abstandsbegriff eine Frage auf,

Mehr

Klassifikation von Daten Einleitung

Klassifikation von Daten Einleitung Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung

Mehr

A2.3 Lineare Gleichungssysteme

A2.3 Lineare Gleichungssysteme A2.3 Lineare Gleichungssysteme Schnittpunkte von Graphen Bereits weiter oben wurden die Schnittpunkte von Funktionsgraphen mit den Koordinatenachsen besprochen. Wenn sich zwei Geraden schneiden, dann müssen

Mehr

Deskriptive Statistik Erläuterungen

Deskriptive Statistik Erläuterungen Grundlagen der Wirtschaftsmathematik und Statistik Erläuterungen Lernmaterial zum Modul - 40601 - der Fernuniversität Hagen 7 2.1 Einfache Lageparameter aus einer gegebenen Messreihe ablesen Erklärung

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

3. Kombinatorik Modelltheoretische Wahrscheinlichkeiten Regeln der Kombinatorik

3. Kombinatorik Modelltheoretische Wahrscheinlichkeiten Regeln der Kombinatorik 3. Kombinatorik Modelltheoretische Wahrscheinlichkeiten lassen sich häufig durch Abzählen der günstigen und möglichen Fällen lösen. Kompliziertere Fragestellungen bedürfen aber der Verwendung mathematischer

Mehr

Vortrag 20: Kurze Vektoren in Gittern

Vortrag 20: Kurze Vektoren in Gittern Seminar: Wie genau ist ungefähr Vortrag 20: Kurze Vektoren in Gittern Kerstin Bauer Sommerakademie Görlitz, 2007 Definition und Problembeschreibung Definition: Gitter Seien b 1,,b k Q n. Dann heißt die

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Mathematik II Frühjahrssemester 2013

Mathematik II Frühjahrssemester 2013 Mathematik II Frühjahrssemester 213 Prof. Dr. Erich Walter Farkas Kapitel 7: Lineare Algebra Kapitel 7.5: Eigenwerte und Eigenvektoren einer quadratischen Matrix Prof. Dr. Erich Walter Farkas Mathematik

Mehr

Messprotokoll: Aufnahme der Quantenzufallszahl

Messprotokoll: Aufnahme der Quantenzufallszahl Messprotokoll: Aufnahme der Quantenzufallszahl Am 19. Juni 2009 wurden für Max Mustermann um 8:35 Uhr mit Hilfe von einzelnen Photonen 993.097 Zufallszahlen generiert. Der Zufallsgenerator steht im Quantenoptiklabor

Mehr

4.2 Grundlagen der Testtheorie

4.2 Grundlagen der Testtheorie 4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt

Mehr

Dieses Kapitel vermittelt:

Dieses Kapitel vermittelt: 2 Funktionen Lernziele Dieses Kapitel vermittelt: wie die Abhängigkeit quantitativer Größen mit Funktionen beschrieben wird die erforderlichen Grundkenntnisse elementarer Funktionen grundlegende Eigenschaften

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Patrick Christ und Daniel Biedermann

Patrick Christ und Daniel Biedermann TECHNISCHE UNIVERSITÄT MÜNCHEN Brückenschaltung Gruppe B412 Patrick Christ und Daniel Biedermann 10.10.2009 0. INHALTSVERZEICHNIS 0. INHALTSVERZEICHNIS... 2 1. EINLEITUNG... 2 2. BESCHREIBUNG DER VERWENDETEN

Mehr

Simulation einer Binomialverteilung

Simulation einer Binomialverteilung HTL Saalfelden Simulation einer Binomialverteilung Seite 1 von 7 Wilfried Rohm wrohm@aon.at Simulation einer Binomialverteilung Mathematische / Fachliche Inhalte in Stichworten: Binomialverteilung, Simulation

Mehr

Diskrete und Schnelle Fourier Transformation. Patrick Arenz

Diskrete und Schnelle Fourier Transformation. Patrick Arenz Diskrete und Schnelle Fourier Transformation Patrick Arenz 7. Januar 005 1 Diskrete Fourier Transformation Dieses Kapitel erläutert einige Merkmale der Diskreten Fourier Transformation DFT), der Schnellen

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

2.7 Der Shannon-Fano-Elias Code

2.7 Der Shannon-Fano-Elias Code 2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.

Mehr

Grundlagen der Elektrotechnik: Wechselstromwiderstand Xc Seite 1 R =

Grundlagen der Elektrotechnik: Wechselstromwiderstand Xc Seite 1 R = Grundlagen der Elektrotechnik: Wechselstromwiderstand Xc Seite 1 Versuch zur Ermittlung der Formel für X C In der Erklärung des Ohmschen Gesetzes ergab sich die Formel: R = Durch die Versuche mit einem

Mehr

5. Seminar Statistik

5. Seminar Statistik Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation

Mehr

Die Formel für die Standardabweichung lautet (ohne die Wurzel haben wir die Varianz):

Die Formel für die Standardabweichung lautet (ohne die Wurzel haben wir die Varianz): Mittelwert und Standardabweichung Klasse: StandardDeviation Schreiben Sie ein Programm StandardDeviation, das von den zufällig erzeugten Werten eines Arrays beliebiger Größe den Mittelwert und die Standardabweichung

Mehr