Clusteranalyse von Nachrichtenartikeln
|
|
- Karin Wolf
- vor 7 Jahren
- Abrufe
Transkript
1 Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln vorgelegt von: Alena Tabea Geduldig
2 Inhaltsverzeichnis 1. Einleitung 2. Dokumentenähnlichkeit 2.1 Dokumentvektoren 2.2 Distanzmaße für Vektoren 3. Durchführung einer Clusteranalyse 3.1 Erstellung des Korpus 3.2 Merkmalsreduzierung und Erzeugen der Dokumentvektoren 3.3 Der K-Means Algorithmus 4. Evaluation und Fazit 4.1 Purity 4.2 Rand Index 4.3 Fazit
3 1. Einleitung Im Allgemeinen wird die Clusteranalyse verwendet, um große Mengen von Elementen zu sortieren. Mit Hilfe der Clusteranalyse sollen Zusammenhänge und Strukturen innerhalb einer Datenmenge aufgedeckt und die einzelnen Objekte in sinnvolle Gruppen (Cluster) unterteilt werden. Hierbei soll dem Anspruch gerecht werden, dass Objekte desselben Clusters sich besonders ähnlich, Objekte verschiedener Cluster besonders unähnlich sind. Die Clusteranalyse hat demzufolge das Ziel, eine große heterogene Gruppe von Elementen unbekannter Ordnung, in mehrere kleine homogene Cluster zu sortieren. Aus diesem Anspruch ergeben sich zwei grundlegende Überlegungen, die zur Durchführung einer Clusteranalyse notwendig sind: Zum einen muss entschieden werden, hinsichtlich welcher Merkmale die Objekte betrachtet und gruppiert werden sollen. Je nach Anwendungsfall und praktischem Ziel der Clusteranalyse, können die Merkmale der Objekte unterschiedlich gut geeignet sein. Zum anderen setzt der Vergleich verschiedener Objekte ein zuverlässiges Maß voraus, mit dem über den Abstand bzw. die Ähnlichkeit zweier Objekte zueinander entschieden werden kann. (vgl. Heyer, S. 196) In dieser Hausarbeit soll die Clusteranalyse als ein Verfahren zur Sortierung von Dokumenten vorgestellt werden. Konkret wird ein Versuch unternommen, Artikel der Nachrichten- Webseite Spiegel-Online 1 sinnvoll zu clustern. In diesem Fall gilt es also zu entscheiden, welche Merkmale sich zur Strukturierung von Textdokumenten eignen und mit welchem Maß ihre Ähnlichkeit bezüglich dieser Merkmale bestimmt werden soll. Im ersten Teil dieser Hausarbeit wird deshalb eine Methode vorgestellt, Textdokumente so aufzubereiten und zu repräsentieren, dass sie ihre inhaltlich relevanten Merkmale so ausdrücken, dass die Nähe zweier Dokumente zueinander messbar wird. Auf dieser Basis wird im Anschluss die eigentliche Clusteranalyse durchgeführt und der ihr zu Grunde liegende Algorithmus, der K- Means-Algorithmus, erläutert. Die Ergebnisse der Analyse werden im letzten Teil dieser Hausarbeit vorgestellt und evaluiert. 1 Link der Webseite: 2
4 2. Dokumentenähnlichkeit Voraussetzung für die erfolgreiche Durchführung einer Clusteranalyse ist die Auswahl geeigneter Merkmale, bezüglich derer die Elemente miteinander verglichen werden sollen. Die Ähnlichkeit von Textdokumenten kann anhand verschiedener Kriterien festgelegt werden. Denkbar wäre, die Länge der Dokumente als Vergleichsmerkmal zu wählen. Ein adäquates Ähnlichkeitsmaß wäre dann die Differenz der in zwei Dokumenten enthaltenen Wörter. Je kleiner diese Zahl ist, desto ähnlicher sind sich zwei Dokumente. Dies ist zwar eine simple Methode und bedarf nur geringem Aufwand, leistet jedoch auch keinen großen praktischen Nutzen. Wünschenswert wäre stattdessen, die Ähnlichkeit von Texten auf Grund ihrer Inhalte zu bewerten. Zwei Dokumente sollen als umso ähnlicher gelten, desto näher ihre thematischen Inhalte semantisch beieinander liegen. Doch mit welchem Distanzmaß soll die semantische Nähe zweier Dokumente automatisch bestimmt werden? Sie lässt sich schließlich nicht ohne weiteres in Zahlen ausdrücken, wie es bei der reinen Länge von Dokumenten möglich ist. Um die thematische Nähe von Dokumenten dennoch miteinander vergleichen zu können, werden sie zu numerischen Vektoren, sogenannten Dokumentvektoren verarbeitet. Die Ähnlichkeit zweier Dokumente entspricht dann der Nähe ihrer Dokumentvektoren und kann mit Hilfe eines Distanzmaßes für Vektoren berechnet werden. Mit Hilfe der paarweisen Dokumentähnlichkeiten, vergleicht ein Clustering-Algorithmus die Ähnlichkeit zwischen Mengen von Dokumenten. Das Ergebnis ist eine Einteilung aller Dokumente in thematisch ähnliche Teilmengen. In den folgenden Abschnitten wird zunächst erläutert, wie die hierfür benötigten Dokumentvektoren generiert werden können, so dass sie den Ansprüchen der Clusteranalyse genügen. Anschließend werden zwei Distanzmaße vorgestellt, die zur Berechnung ihrer Ähnlichkeiten verwendet werden können. 2.1 Dokumentvektoren Da Dokumentvektoren einen Text hinsichtlich ihres Themas repräsentieren sollen, werden sie auf Grundlage der im Text enthaltenen Wörter generiert. Die einzelnen Wörter eines Textes definieren zwar seinen Inhalt, dies jedoch mit unterschiedlicher Intensität. Nicht jedes Wort beschreibt den Inhalt eines Textes gleichermaßen gut und treffend. Ziel ist es daher, jedem Wort der zu clusternden Dokumentmenge einen Wert zuzuweisen, der seine 3
5 Wichtigkeit für ein Dokument zum Ausdruck bringt. Diese Werte sollen schließlich als Einträge der Dokumentvektoren fungieren. Ausgangspunkt zur Berechnung eines solchen Wertes, bilden die folgenden Annahmen: 1. Die Termfrequenz (tf) eines Wortes beschreibt die Anzahl seines Vorkommens innerhalb eines Textes. Je höher die Termfrequenz eines Wortes ist, das heißt je öfter es im Dokument verwendet wird, desto mehr Aussagekraft besitzt es über diesen Text. 2. Die Dokumentfrequenz (df) eines Wortes beschreibt die Anzahl der Dokumente eines Korpus, in denen es mindestens einmal auftritt. Je niedriger die Dokumentfrequenz eines Wortes ist, desto mehr Aussagekraft besitzt es über den Text der es enthält. Die Wichtigkeit eines Wortes für ein Dokument wird auf Basis der tf und df Werte bestimmt. Um für wichtige Wörter einen hohen Wert zu erzielen und für unwichtigere einen niedrigeren Wert, wird die Dokumentfrequenz invertiert und anschließend, um den Wertebereich gering zu halten, logarithmiert: = d beschreibt hierbei die Anzahl aller Dokumente des betrachteten Korpus. Da die Texte für eine Clusteranalyse oft unterschiedlich lang sind, sind auch die Termfrequenzen der Wörter unterschiedlich zu interpretieren. Ein Wort mit einer Termfrequenz von fünf ist für ein sehr kurzes Dokument höher zu bewerten, als für ein sehr langes Dokument. Die Termfrequenz muss daher relativ zur Länge des Dokuments interpretiert werden. Dies wird durch die Normalisierung der Termfrequenz gewährleistet: maxtf bezeichnet hierbei die Termfrequenz des häufigsten Wortes im Dokument. Aus der inversen Dokumentfrequenz idf und der normalisierten Termfrequenz ntf, kann nun für jedes Wort (t) seine Wichtigkeit (w) für ein Dokument (d) wie folgt berechnet werden: 4
6 Je höher dieser Wert ist, desto aussagekräftiger ist es für den Inhalt des Dokuments. Tritt ein Wort keinmal innerhalb des Dokumentes auf, wird ihm entsprechend der Formel der Wert 0 zugewiesen. Der zu einem Dokument gehörende Vektor wird nun wie folgt generiert: Jedes im gesamten Korpus vorkommende Wort steht für eine Dimension des Vektors. (Die Reihenfolge spielt hierbei keine Rolle, muss aber für jeden Vektor gleich bleiben.) Die Vektoren haben folglich alle dieselbe Dimension, welche durch die Anzahl der verschiedenen Wörter im Korpus festgelegt ist. Die einzelnen Einträge des Dokumentvektors ergeben sich aus dem Wert der Wichtigkeit jedes Wortes w(t,d). Mit Hilfe eines Distanzmaßes für Vektoren, kann nun auch die Ähnlichkeit zweier Dokumente zueinander bestimmt werden. Sie entspricht der Distanz der zugehörigen Dokumentvektoren. (Zu Abschnitt 2.1 vgl. Heyer 2008, Kap. 5.2) 2.2 Distanzmaße für Vektoren Die Mathematik stellt eine Reihe verschiedener Maße zur Berechnung der Distanz zweier Vektoren bereit. Distanzmaße liefern zu je zwei Vektoren einen numerischen Wert, welcher die Ähnlichkeit beider Vektoren zueinander ausdrückt. Das Kosinus-Maß definiert die Ähnlichkeit zweier Vektoren durch den zwischen ihnen eingeschlossenen Winkel: cos, = cos ( ) = =1 2 =1 2 =1 Entscheidend für ihre Ähnlichkeit ist folglich nur die Richtung der beiden Vektoren. Soll auch deren Länge berücksichtigt werden, kann die euklidische Distanz verwendet werden, = =1 ( ) 2 5
7 (Formeln aus Heyer 2008, S. 206) Im zweidimensionalen Fall entspricht sie genau dem physikalischen Abstand der zugehörigen Punkte im Koordinatensystem. Ein hoher Wert steht hier im Gegensatz zum Kosinus-Maß also für Unähnlichkeit. Je kleiner die euklidische Distanz zwischen zwei Dokumentvektoren ist, desto ähnlicher sind sich die entsprechenden Dokumente. 3. Durchführung einer Clusteranalyse Im Folgenden soll die Clusteranalyse von Textdokumenten anhand eines konkreten Beispiels erläutert werden. Als Grundlage dienen hierfür Artikel der Nachrichtenwebseite Spiegel- Online. Mit Hilfe von Dokumentvektoren und dem Clustering-Algorithmus K-Means wird der Versuch unternommen, eine große Menge unterschiedlicher Artikel aus verschiedenen Ressorts thematisch zu sortieren. Unter der Annahme, dass die thematische Ähnlichkeit der Artikel durch die verschiedenen von Spiegel-Online verwendeten Ressorts wiedergespiegelt wird, lässt sich bereits im Voraus ein optimales und anzustrebendes Ergebnis festlegen: Im besten Fall werden die Zusammengehörigkeiten der Artikel eines Ressorts erkannt und zu einem eigenen Cluster zusammengefasst. Das Ergebnis sollte also der von Spiegel-Online verwendeten Kategorisierung entsprechen. 3.1 Erstellung des Korpus Zum Clustern der Onlineartikel ist es notwendig, ihre textuellen Inhalte in einem zur Weiterverarbeitung geeigneten Korpus zu speichern. Diese Aufgabe wurde von einem Programm zum Webcrawling übernommen. Ausgehend von den URLs der relevanten Webseiten, ermittelt dieses Programm ihre textuellen Inhalte und speichert die so gewonnenen Artikel in separaten Textdateien ab. Zusätzlich wird jedes Dokument mit einem Thema-Attribut ausgezeichnet, welches dem von Spiegel-Online vorgegebenem Ressort entspricht. Es dient der anschließenden Evaluation des Clusterergebnis. Insgesamt wird auf diese Weise ein Korpus bestehend aus 89 Nachrichtenartikeln aus den vier verschiedenen Ressorts Auto, Politik, Netzwelt und Sport erstellt, wobei jedes Ressort in etwa gleich stark vertreten ist. 6
8 3.2 Merkmalsreduzierung und Erzeugen der Dokumentvektoren Bevor aus den einzelnen Artikeln nun Dokumentvektoren generiert werden, empfiehlt es sich die Anzahl der hierfür einbezogenen Wörter auf ein Minimum zu reduzieren. Nicht alle Wörter im Korpus eignen sich gleichermaßen gut, um die Unterschiede und Gemeinsamkeiten der Dokumente herauszustellen. Eine Merkmalsreduzierung hat das Ziel, nur die für den Korpus ausreichend relevanten Wörter in die Analyse mit einzubeziehen. Funktionswörter können als unbrauchbar für den Vergleich der Artikels betrachtet werden, da sie in jedem Artikel mit einer ähnlich hohen Häufigkeit vorkommen und keinen eigenständigen semantischen Inhalt besitzen. Mit Hilfe eines Tokenizers werden die Artikel deshalb zunächst in ihre Worteinheiten zerlegt und alle Funktionswörter aus den Texten entfernt. Hierfür wird eine Stoppwortliste zur Hilfe genommen, welche die häufigsten im Deutschen verwendeten Funktionswörter beinhaltet. Die einzelnen Terme werden mit den Einträgen der Stoppwortliste abgeglichen und im Falle einer Übereinstimmung entfernt. Auf diese Weisen können die Nachrichtenartikel auf ihre bedeutungstragenden Wörter reduziert und die Gesamtzahl der Terme deutlich gesenkt werden. In einem weiteren Schritt werden die Dokumente nun von einem Stemmer bearbeitet. Ein Stemmer hat die Funktion flektierte Wortformen auf ihren Wortstamm zurückzuführen. Auf diese Weise werden unterschiedliche morphologische Varianten eines Wortes in eine identische Form gebracht und folglich zu einer Merkmalsdimension zusammengefasst. Die gemeinsame Bedeutung dieser Wörter wird erkannt und gewinnt somit an Gewicht. Ein Artikel über Bücher, indem das Wort Buch zwar häufig, jedoch in unterschiedlichen Varianten wie Buch, Bücher, Büchern, Buches auftritt, verdeutlicht den Nutzen, der durch das Stemming erzielt werden kann. Würden die Flexionsformen nicht auf ihre Grundform zurück geführt werden, würde jede Form einzeln betrachtet werden und nur eine geringe Termfrequenz und somit einen niedrigen Wert für die Wichtigkeit des Dokumentes erzielen. Durch das Stemming werden die Formen jedoch identisch und die Termfrequenzen aller Varianten des Wortes aufsummiert. Als letzte Einschränkung wird außerdem eine Mindesthäufigkeit festgelegt, mit der ein Wort im gesamten zu analysierenden Korpus auftreten muss, um in die Clusteranalyse mit einzufließen. Kommt ein Wort im Korpus nicht häufig genug vor, soll es unberücksichtigt 7
9 bleiben, denn nur Wörter, die im Korpus ausreichend stark vertreten sind, eignen sich auch für den Vergleich der Dokumente: Die ur ei al orko e de Wortfor e kö e ü erhaupt i ht zu Dokumentenvergleich genommen werden, weil sie eben nur in einem Dokument vorkommen. Wortformen mit nur zwei Vorkommen kommen (höchstens) in zwei Dokumenten vor und können so nur eine Aussage über die Ähnlichkeit dieser beiden Doku e te a he us. Heyer, S. Als Ergebnis dieser Merkmalsreduzierung, liegen die Texte nun nicht mehr in ihrer ursprünglichen, für den menschlichen Leser gedachten Form vor, sondern in einer zur maschinellen Verarbeitung geeigneten Form, die allein an der Semantik der Texte orientiert ist. Vor der Merkmalsreduzierung bestand der Korpus aus 89 Nachrichtenartikeln mit insgesamt verschiedenen Wortformen. Im Anschluss verbleiben relevante Terme, die tatsächlich zur Analyse herangezogen werden. Auf Basis dieser Wörter werden schließlich, nach dem oben beschrieben Verfahren, die Dokumentvektoren generiert. Ein Vektor besteht folglich aus Dimensionen, wobei jede Dimension für eines der relevanten Wörter steht. Ihre Einträge entsprechen dem Wichtigkeitswert dieses Wortes für das entsprechende Dokument. Je besser ein Wort einen Artikel thematisch beschreibt, desto stärker fällt seine Dimension ins Gewicht des zugehörigen Dokumentvektors. 3.3 Der K-Means-Algorithmus Auf Basis der Dokumentvektoren kann nun die eigentliche Clusteranalyse erfolgen: Eine Einteilung der Nachrichtenartikel in thematisch ähnliche Teilmengen. Als optimales Ergebnis soll hierbei eine Unterteilung der Artikel in ihre vier unterschiedlichen Kategorien gelten. Jede Teilmenge sollte im besten Fall alle zu einem Ressort gehörenden Artikel enthalten. Da die Zugehörigkeit zu einer Kategorie und somit zu einem der Cluster eindeutig durch Spiegel- Online festgelegt ist, eignet sich ein hartes Clusterverfahren wie der K-Means-Algorithmus. Im Gegensatz zu weichen Verfahren, wird jedes Element hier eindeutig einem Cluster zugeordnet. Weiche Verfahren erlauben hingegen mit der Angabe von Wahrscheinlichkeiten die Zugehörigkeit zu mehreren Clustern. Eine Annäherung an das optimale Ergebnis setzt außerdem eine vorab festgelegte Anzahl von vier Clustern voraus. 8
10 Der K-Means-Algorithmus arbeitet mit einem iterativen Verfahren. Ausgehend von einer initialen Clustereinteilung werden die Clusterzugehörigkeiten sukzessive verbessert. Zu Beginn wird für jedes der 4 zu bildenden Cluster ein zufälliger Dokumentvektor als dessen Mittelpunkt (Zentrum) festgelegt. Die eigentliche Berechnung der Cluster erfolgt dann durch die wiederholte Ausführung der folgenden zwei Schritte: 1. Unter Verwendung eines Distanzmaßes wird jeder Dokumentvektor dem Cluster zugeordnet, dessen Zentrum er am nächsten liegt. 2. Zu jedem Cluster wird sein neuer Zentrumsvektor aus den Mittelwerten seiner Mitglieder bestimmt. (Die Clusterzentren bilden somit nicht mehr konkrete Dokumente des Korpus, sondern hypothetische Dokumentvektoren, die als Prototypen der Cluster beschrieben werden können.) Auf diese Weise werden die Clusterzugehörigkeiten mit jedem Durchgang optimiert. Der Algorithmus terminiert, sobald die Schritte 1 und 2 keine Veränderungen in der Clustereinteilung mehr bewirken. 4. Evaluation und Fazit Gemessen an der als optimal angenommen Einteilung sollen die tatsächlichen Ergebnisse der Clusteranalyse nun evaluiert werden. Hierfür werden zwei verschiedene Messwerte zur Bestimmung der Güte eines Clusterergebnisses herangezogen. Beide Werte drücken aus, wie stark ein Ergebnis von der als richtig vorausgesetzten Sortierung abweicht. Da die Texte bereits bei der Korpuserstellung mit ihrem Ressort ausgezeichnet wurden, kann die Evaluation hier rein maschinell erfolgen, was gerade bei großen Korpora wie dem hier verwendeten von Vorteil ist. Dies ist jedoch nur möglich, da bereits im Voraus bestimmte Kategorien als gültig vorausgesetzt werden und nur an diesen Kategorien kann sich eine Evaluationskomponente orientieren. Abweichungen hiervon werden grundsätzlich als falsch bewertet, unabhängig davon, wie eine Beurteilung aus menschlicher Sichtweise ausfallen könnte und von der tatsächlichen Nähe der Dokumentvektoren. Hier wird also nur extern evaluiert, ob und wie gut sich das Clusteringverfahren zur Aufdeckung bestimmter Strukturen eignet. Im Gegensatz dazu, kann eine interne Evaluation auch auf Elemente mit 9
11 unbekannter Ordnung angewendet werden. Hier werden die Distanzverhältnisse innerhalb eines und zwischen den verschiedenen Clustern überprüft. 3.1 Purity Eine Möglichkeit zur externen Evaluation von Clusterergebnissen ist die Berechnung des Purity-Maßes. Purity kann in diesem Zusammenhang mit Reinheit übersetzt werden, denn es bewertet die Reinheit (Einheitlichkeit) der einzelnen Cluster. Jedes Cluster wird hierzu mit der Kategorie (in diesem Fall also dem Ressort) ausgezeichnet, das am stärksten in ihm vertreten ist. Alle demnach richtig zugeordneten Elemente werden gezählt und aus jedem Cluster summiert. Der Purity-Wert entspricht dann dem Verhältnis der korrekt zugeordneten Dokumente zur Gesamtdokumentmenge: (Ω, C) = Ω = {w 1, w 2,..., w k } bezeichnet hierbei die Menge aller Cluster, C = {c 1, c 2,, j } die Menge aller Kategorien (Ressorts) und die Gesamtdokumentmege. (vgl. Manning 2008, S. 328) 3.2 Rand Index Der Rand Index misst das Verhältnis zwischen den richtig getroffenen Entscheidungen zu allen Entscheidungen des Clustering-Algorithmus. Richtige Entscheidungen (R) wurden dann getroffen, wenn zwei Elemente aus demselben Spiegel-Ressort auch in dasselbe Cluster eingeteilt wurden (true positive) und wenn zwei Dokumente aus verschiedenen Ressorts auch in verschiedene Cluster geteilt wurden (true negative). Die Zahl der Fehlentscheidungen (F) entspricht der Anzahl der Dokumentenpaare, die entweder aus demselben Ressort kommen, aber in verschiedene Cluster geteilt wurden (false negative), oder im selben Cluster liegen, aber unterschiedlichen Ressorts entstammen (false positive). = + = Beide Maße liegen im Wertebereich von 0 bis 1, wobei 1 der exakten Übereinstimmung mit den Referenzkategorien entspricht. (vgl. Manning 2008, S. 329) 10
12 3.3 Fazit Die Zeitungsartikel wurden in mehreren Durchgängen geclustert. Einige wurde das Kosinus- Maß als Distanzmaß für den Algorithmus verwendet und einige Male die euklidische Distanz. Außerdem wurde die Mindesthäufigkeit, mit der ein Wort im Korpus auftreten muss, um berücksichtigt zu werden, variiert. Die Ergebnisse sind in der folgenden Tabelle dargestellt (Hervorgehoben sind die jeweils besten Werte der Distanzmaße): Mindesthäufigkeit Kosinus-Maß eukl. Distanz Purity RI Purity RI 0 0,730 0,775 0,292 0, ,719 0,769 0,303 0, ,764 0,797 0,416 0, ,787 0,812 0,326 0, ,809 0,821 0,382 0, ,674 0,743 0,348 0,326 Während mit der euklidischen Distanz nur unterdurchschnittliche Ergebnisse erzielt wurden, kommen die Ergebnisse unter Verwendung des Kosinus-Maß sehr nah in die tatsächliche Kategorisierung in Zeitungsressorts heran. Bei einer Mindesthäufigkeit von acht konnte ein Puritywert von 0,809 und ein Rand Index von 0,821 erreicht werden, was einer sehr guten Annäherung an die tatsächlichen Kategorien entspricht. Das Ergebnis zeigt, dass ein Vergleich der Richtung der Dokumentvektoren nicht nur ausreicht um thematisch ähnliche Dokumente zu ermitteln, sondern eine zusätzliche Berücksichtigung der Vektorenlängen das Ergebnis sogar deutlich verzerren kann. Im besten Durchgang wurden vier Cluster der Größen 17, 35, 20 und 17 erzeugt. Die Unterschiede zur Referenzeinteilung kommen also offenbar dadurch zustande, dass ein Cluster zusätzliche Artikel umfasst, die eigentlich einem anderen Ressort angehören, aus Sicht des Clusteringalgorithmus aber mehr Ähnlichkeit mit den Artikeln eines fremden Ressorts aufweisen. Als Erklärung hierfür wären verschiedene Gründe denkbar. Inhalte können Ressortübergreifend auftreten und sich nur in der Sichtweise auf ein Thema unterscheiden. Wird das gemeinsame Thema richtig erkannt, werden die Artikel, im Sinne des Algorithmus, dennoch zusammengefasst. Zu 11
13 berücksichtigen ist also, dass die Clusteranalyse im Allgemeinen nicht das Ziel hat, vordefinierte Kategorien richtig zu erkennen, sondern innere, undefinierte Strukturen aufzudecken. Mit Hilfe des vorausgezeichneten Versuchskorpus konnte aber gezeigt werden, dass das Verfahren in der Lage ist zwischen gängigen Zeitungsressorts zu differenzieren und die thematischen Zusammenhänge zwischen Artikeln eines Ressorts in den meisten Fällen erkennt. 12
14 4. Literaturverzeichnis HEYER, Gerhard/ Quasthoff, Uwe/ Wittig, Thomas (2008) Text Mining: Wissensrohstoff Text, Herdecke, Witten: W3L-Verlag. MANNING, Christopher/ Raghavan, Prabhakar/ Schütze, Hinrich (2008) Introduction to Information Retrieval, Cambridge University Press. 13
15 . 14
Information Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrMidas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrKurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl
Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die
MehrTutorial: Balken- und Tortendiagramm
Tutorial: Balken- und Tortendiagramm In der Tabelle ist die Notenverteilung von 510 Teilnehmern an Mathematik Proseminaren angegeben (NA bedeutet einen unbekannten Wert). Der Sachverhalt sollte in zwei
MehrText-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
MehrProduktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien
Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.
MehrMultivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrHS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrWelche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
MehrData Mining Cup Dokumentation
Data Mining Cup 2012 - Dokumentation Martin Dreissig, Michael Flau May 14, 2012 1 Beschreibung der zu analysierenden Daten Die zu analysierenden Daten für den diesjährigen Data Mining Cup bestehen aus
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
Mehr4.4 Hierarchische Clusteranalyse-Verfahren
Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung
MehrKorrespondenzanalyse
Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung
Mehr1 Einleitung. 2 Clustering
Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2009 11. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrProgrammierkurs Python II
Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrAnalyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung
Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung Zusammenfassung der Diplomarbeit an der Hochschule Zittau/Görlitz Maria Kiseleva Motivation
MehrSkript zum Kurz-Referat:
Prof. Dr. Klaus-Jürgen Tillmann/ Michael Lenz WS 2001/02 Fakultät für Pädagogik (AG 4) der Universität Bielefeld Seminar: Anlage und : Der pädagogische Streit seit den 50er-Jahren 7. Sitzung: Die Erblichkeit
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrP (X = 2) = 1/36, P (X = 3) = 2/36,...
2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel
MehrKritische Werte für den U-Test bei grossen Stichprobenumfängen. Berechnung einer umfangreichen U-Wertetabelle. Studie
Berechnung einer umfangreichen U-Wertetabelle Studie Autor: Helmut Vetter Ort, Datum: Arlesheim, 04.10.015 Diese Arbeit wurde mit TexLive erstellt. Kritische Werte für den U-Test bei grossen Stichprobenumfängen
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrÜbungen mit dem Applet. by Michael Gärtner
Übungen mit dem Applet by Michael Gärtner Betreuer: Prof. Dr. Wilhelm Kleppmann Abgabe: 20. October 2006 Inhaltsverzeichnis 1 Prinzip der kleinsten Quadrate 4 2 Quadrierte Abweichungen und Bestimmtheitsmaÿ
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe
MehrNichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität
Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained
MehrParallele Algorithmen in der Bildverarbeitung
Seminar über Algorithmen - SoSe 2009 Parallele Algorithmen in der Bildverarbeitung von Christopher Keiner 1 Allgemeines 1.1 Einleitung Parallele Algorithmen gewinnen immer stärker an Bedeutung. Es existieren
MehrMathematik für Naturwissenschaftler II SS 2010
Mathematik für Naturwissenschaftler II SS 2010 Lektion 7 11. Mai 2010 Kapitel 8. Vektoren Definition 76. Betrachten wir eine beliebige endliche Anzahl von Vektoren v 1, v 2,..., v m des R n, so können
Mehr7 Einteilung der Vergleiche
62 7 Einteilung der Vergleiche Man kann Vergleiche vergleichen, um Gleichheit und Ungleichheit der Vergleiche zu erkennen. Gleichheit der Vergleiche besteht in Hinsicht auf die Eigenschaften, die in der
MehrBildverarbeitung Herbstsemester. Mustererkennung
Bildverarbeitung Herbstsemester Herbstsemester 2009 2012 Mustererkennung 1 Inhalt Einführung Mustererkennung in Grauwertbildern Ähnlichkeitsmasse Normalisierte Korrelation Korrelationskoeffizient Mustererkennung
MehrData Mining und Maschinelles Lernen
Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und
MehrWas sind Zusammenhangsmaße?
Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten
MehrMathematisch-Statistische Verfahren des Risiko-Managements - SS
Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer
MehrLineares Gleichungssystem - Vertiefung
Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus
Mehr(c) x = a 2 b = ( ) ( ) = Anzahl der Teiler von x: τ(x) = (1 + 1) (3 + 1) (1 + 1) (7 + 1) = 128
Aufgabe 1 Wir betrachten die beiden Zahlen a = 57 101 3 und b = 3 57 79 101 (4+2+4=10 Punkte) ( Es gilt: 3, 57, 79, 101 P ) Hier liegt ein Fehler in der Aufgabenstellung vor, denn wegen 57 = 3 19 ist 57
MehrStochastische Approximation des Value at Risk
Stochastische Approximation des Value at Risk Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit die sogenannte Solvency-II-Richtlinie der Versicherungsaufsicht.
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
MehrExemplar für Prüfer/innen
Exemplar für Prüfer/innen Kompensationsprüfung zur standardisierten kompetenzorientierten schriftlichen Reifeprüfung AHS Juni 2015 Mathematik Kompensationsprüfung Angabe für Prüfer/innen Hinweise zur Kompensationsprüfung
Mehr9. Vorlesung Lineare Algebra, SVD und LSI
9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent
MehrKapitel VI. Euklidische Geometrie
Kapitel VI. Euklidische Geometrie 1 Abstände und Lote Wiederholung aus Kapitel IV. Wir versehen R n mit dem Standard Skalarprodukt x 1 y 1.,. := x 1 y 1 +... + x n y n x n y n Es gilt für u, v, w R n und
MehrFrequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
MehrBerechnung von Abständen
3. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 3.4. Es sei G = (V, E) ein Graph. Der Abstand d(v, w) zweier Knoten v, w V ist die minimale Länge eines Weges von v nach w.
MehrClusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
Mehrz Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Mehr1 Zahlentheorie. 1.1 Kongruenzen
3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv
MehrDokument Klassifikation. Thomas Uhrig: Data-Mining SS10
Agenda: 1: Klassifizierung allgemein 2: der naive Bayes-Klassifizierer 3: Beispiel 4: Probleme 5: Fazit 6: Quellen 1: Klassifizierung allgemein: 1: Klassifizierung allgemein: - Einordnung von Objekten
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrErwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?
Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße Von Florian Modler In diesem Artikel möchte ich einen kleinen weiteren Exkurs zu meiner Serie Vier Wahrscheinlichkeitsverteilungen geben
Mehr} Symmetrieachse von A und B.
5 Symmetrieachsen Seite 1 von 6 5 Symmetrieachsen Gleicher Abstand von zwei Punkten Betrachtet man zwei fest vorgegebene Punkte A und B, drängt sich im Zusammenhang mit dem Abstandsbegriff eine Frage auf,
MehrKlassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
MehrA2.3 Lineare Gleichungssysteme
A2.3 Lineare Gleichungssysteme Schnittpunkte von Graphen Bereits weiter oben wurden die Schnittpunkte von Funktionsgraphen mit den Koordinatenachsen besprochen. Wenn sich zwei Geraden schneiden, dann müssen
MehrDeskriptive Statistik Erläuterungen
Grundlagen der Wirtschaftsmathematik und Statistik Erläuterungen Lernmaterial zum Modul - 40601 - der Fernuniversität Hagen 7 2.1 Einfache Lageparameter aus einer gegebenen Messreihe ablesen Erklärung
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
Mehr3. Kombinatorik Modelltheoretische Wahrscheinlichkeiten Regeln der Kombinatorik
3. Kombinatorik Modelltheoretische Wahrscheinlichkeiten lassen sich häufig durch Abzählen der günstigen und möglichen Fällen lösen. Kompliziertere Fragestellungen bedürfen aber der Verwendung mathematischer
MehrVortrag 20: Kurze Vektoren in Gittern
Seminar: Wie genau ist ungefähr Vortrag 20: Kurze Vektoren in Gittern Kerstin Bauer Sommerakademie Görlitz, 2007 Definition und Problembeschreibung Definition: Gitter Seien b 1,,b k Q n. Dann heißt die
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrMathematik II Frühjahrssemester 2013
Mathematik II Frühjahrssemester 213 Prof. Dr. Erich Walter Farkas Kapitel 7: Lineare Algebra Kapitel 7.5: Eigenwerte und Eigenvektoren einer quadratischen Matrix Prof. Dr. Erich Walter Farkas Mathematik
MehrMessprotokoll: Aufnahme der Quantenzufallszahl
Messprotokoll: Aufnahme der Quantenzufallszahl Am 19. Juni 2009 wurden für Max Mustermann um 8:35 Uhr mit Hilfe von einzelnen Photonen 993.097 Zufallszahlen generiert. Der Zufallsgenerator steht im Quantenoptiklabor
Mehr4.2 Grundlagen der Testtheorie
4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt
MehrDieses Kapitel vermittelt:
2 Funktionen Lernziele Dieses Kapitel vermittelt: wie die Abhängigkeit quantitativer Größen mit Funktionen beschrieben wird die erforderlichen Grundkenntnisse elementarer Funktionen grundlegende Eigenschaften
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrPatrick Christ und Daniel Biedermann
TECHNISCHE UNIVERSITÄT MÜNCHEN Brückenschaltung Gruppe B412 Patrick Christ und Daniel Biedermann 10.10.2009 0. INHALTSVERZEICHNIS 0. INHALTSVERZEICHNIS... 2 1. EINLEITUNG... 2 2. BESCHREIBUNG DER VERWENDETEN
MehrSimulation einer Binomialverteilung
HTL Saalfelden Simulation einer Binomialverteilung Seite 1 von 7 Wilfried Rohm wrohm@aon.at Simulation einer Binomialverteilung Mathematische / Fachliche Inhalte in Stichworten: Binomialverteilung, Simulation
MehrDiskrete und Schnelle Fourier Transformation. Patrick Arenz
Diskrete und Schnelle Fourier Transformation Patrick Arenz 7. Januar 005 1 Diskrete Fourier Transformation Dieses Kapitel erläutert einige Merkmale der Diskreten Fourier Transformation DFT), der Schnellen
Mehr, Data Mining, 2 VO Sommersemester 2008
Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/
Mehr2.7 Der Shannon-Fano-Elias Code
2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.
MehrGrundlagen der Elektrotechnik: Wechselstromwiderstand Xc Seite 1 R =
Grundlagen der Elektrotechnik: Wechselstromwiderstand Xc Seite 1 Versuch zur Ermittlung der Formel für X C In der Erklärung des Ohmschen Gesetzes ergab sich die Formel: R = Durch die Versuche mit einem
Mehr5. Seminar Statistik
Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation
MehrDie Formel für die Standardabweichung lautet (ohne die Wurzel haben wir die Varianz):
Mittelwert und Standardabweichung Klasse: StandardDeviation Schreiben Sie ein Programm StandardDeviation, das von den zufällig erzeugten Werten eines Arrays beliebiger Größe den Mittelwert und die Standardabweichung
Mehr