SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren

Größe: px
Ab Seite anzeigen:

Download "SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren"

Transkript

1 SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren Spinfo-internes Paper Claes Neuefeind Mai 2003 Im Rahmen des SemGen Projektes sollen sprachliche Daten in verschiedenen Verarbeitungsstufen algorithmisch verarbeitet werden. Einige der Algorithmen (u.a. SOM, LSI) verlangen eine vektorielle Repräsentation. Damit die verschiedenen Vektoren nicht korrelieren, benötigt man für jede Wortform einen eindeutigen Vektor. Wünschenswert ist dabei, bereits vorliegende Informationen für die Repräsentation zu verwenden, damit diese auch in weiteren Verarbeitungsschritten erhalten bleiben. Wesentlich für das Projekt ist dabei der Fokus auf die Semantik: Es soll nur der Inhalt der Wörter verglichen werden, dennoch muss die symbolische Repräsentation für die Lesbarkeit der Ausgaben in die Kodierung mit einfließen 1. Dass bereits die Beschaffenheit der Daten und somit auch die Wahl der Repräsentation Einfluss auf die Ergebnisse hat, ist dabei ein erwarteter Befund. Ist das Gewicht des symbolischen Teils sehr hoch, gruppieren sich die Daten nach ihrer Form - um eine inhaltlich Klassifizierung zu erhalten, muss somit der Kontext stärker ins Gewicht fallen. Dieses Paper versucht, diesen Umstand ein wenig zu beleuchten: Was sind die Kriterien, nach denen eine Repräsentation erstellt werden kann? Was eigentlich ist der Kontext in diesem Zusammenhang und wie kann dieser eingebunden werden? Welche weiteren Faktoren spielen bei der Erstellung eine Rolle? Darüber hinaus werden einige mit Wahl der Repräsentation verbundenen Konsequenzen für die Verarbeitung angesprochen. 1. Zufallsvektoren Eine erste Intuition ist die Verwendung von Zufallsvektoren. Ihr wesentlicher Vorteil ist die leichte Erstellung (einfach Länge festlegen und Zufallszahlen vergeben). Der Nachteil ist, dass die Zuordnung des Vektors zur Wortform ebenso arbiträr ist, wie die zwischen Wortform und Inhalt (man hätte ebenso gut die Ascii-Werte summieren und dann Quersummen bilden können...) Die Erklärung ist recht einfach: Zufallsvektoren enthalten keinerlei Informationen, sie sind nichts weiter als eine weitere Repräsentationsebene. Semantisch 1 Z.B. für die Auszeichnung der durch SOMs abgebildeten Daten bei der Visualisierung.

2 eindeutig werden die Vektoren erst, wenn Ihnen Kontextinformation zugefügt wird. Um dies unter Verwendung von Zufallsvektoren zu erreichen, muss man alle Vektoren innerhalb der gewählten Kontextbreite 'sammeln' und daraus eine Signatur (einen Durchschnitt) errechnen was je nach Länge der Vektoren einen erheblichen Rechenaufwand mit sich bringt. Hinzu kommt als weiterer Nachteil die Schwierigkeit einer nachträglichen Einbindung weiterer Vektoren, welche nur möglich ist, wenn man Buch führt über die bereits vergebenen Zufallszahlen. 2. Vector Space Model (VSM) nach Manning/Schütze (1999: 539ff). Es gibt andere Wege, um eindeutige Vektoren zu erstellen, die bereits bei der ersten Berechnung kontextuelle Informationen nutzen, um die Wortform zu beschreiben. Dies hat den Vorteil, dass bereits vorliegende Informationen in der Repräsentation des Wortes enthalten sind und in weiteren Verarbeitungsschritten auch erhalten bleiben. Im VSM werden Wörter als Vektoren in hochdimensionierten Räumen dargestellt. Dazu wird zunächst ein Vektorraum (= eine Matrix) mit je einer Dimension je Wort definiert. Wörter sind hier beispielsweise Vektoren in einem Dokumentenraum, oder aus anderer Perspektive - Elemente von Dokumentvektoren, die zusätzlich gewichtet werden können (s.u.). Die Eindeutigkeit der Vektoren wird hier erst durch die Beschreibung erzielt. Im Folgenden seien Beispiele solcher Vektorräume aufgeführt: 2.1 document space Auftreten von Wörtern innerhalb verschiedener Dokumente. Wörter werden hier thematisch klassifiziert, die Kontextbreite ist abhängig von der Größe der Dokumente. Die Wahl von Dokumenten als Einheit entstammt dem Information Retrieval, was neben einer verarbeitungstechnischen Motivation auch den Grund hat, dass Dokumente in der Regel in sich geschlossene thematische Einheiten sind. Aus der Perspektive der Terme (t1-3) sind die Dokumente (d1-3), in denen sie auftreten, der Kontext die Zeilen der Matrix sind die Wortvektoren: d1 d2 d3 t t t

3 2.2 word space 'Kookkurenzmatrix' 2 : Auftreten von Wörtern zusammen mit anderen Wörtern innerhalb eines festgelegten 'Fensters' dies können die direkten Nachbarn sein oder gleich 10 oder gar 100 Wörter. Auch Einheiten wie Satz, Absatz oder Phrase sind möglich. Die Wahl der Kontextbreite hat erheblichen Einfluss auf die Ähnlichkeitsverteilung. Hier sind Zeilen und Spalten identische Wortvektoren: t1 t2 t3 t t t grammatischer Raum, z.b. modifier space Auftreten eines Kopfes N mit Adjektiven. Der Raum wird definiert durch die Adjektive, die nominalen Köpfe sind Vektoren in diesem Raum. Derartige Matrizen können für jeden Phrasentyp erstellt werden, sofern entsprechende syntaktische Information zugänglich ist. Anhand der Beispiele lässt sich folgendes festhalten: Zum einen ist die Art des Kontextes (thematisch, grammatisch,...) entscheidend, zum anderen ist die Kontextbreite eine veränderliche Größe hier gilt es, ein sinnvolles Maß zu finden (n-gram; Satz;...). Durch die Wahl des Vektorraums werden jeweils andere Informationen verwendet und dadurch verschiedene Eigenschaften betont. Der Raum hat entscheidenden Einfluss auf die Interpretation der Ergebnisse, er determiniert die Art der semantischen Ähnlichkeit. Die Verwendung eines linguistisch ausgezeichneten Kontextes liefert andere Ergebnisse als ein numerisch festgelegter; der modifier space reflektiert eher die gleiche oder ähnliche Verwendung verschiedener Wörter, wohingegen im document space nur die Verwendung innerhalb eines gleichen Diskurses/Themas zum Ausdruck kommt. Durch die Einbindung grammatischen Wissens kann man Generalisierungen über die Verwendung unbekannter Wörter treffen durch Kookkurenzmodelle hingegen lassen sich thematische Ähnlichkeiten finden. Dies ist eher für Nomina denn für Verben interessant, da 2 Kookkurenz bezeichnet die Annahme, dass Wörter, die gemeinsam auftreten, semantisch verwandt im Sinne eines gemeinsamen Themenbereichs sind. Erfasst wird unter dieser Bezeichnung das gemeinsame Auftreten zweier oder mehrerer Terme innerhalb eines festgelegten Kontextfensters, sobald es häufiger als im Durchschnitt (der ermittelt werden muss) geschieht und daher nicht mehr als zufällig gewertet werden kann.

4 letztere nicht so sehr an einen Diskurs gebunden sind (das Verb 'laufen' etwa, welches als Bewegungsverb oder als kinetische Metapher verwendet wird "wie läuft es" "ich laufe..."). Es ist demnach bei der Erstellung von Vektoren wesentlich, ob man sich für ein Kookkurenzmodell (sog. 'bag of words') entscheidet, oder auch relationale Informationen einbezieht (Subjekt-Objekt-Beziehungen u.ä.), ob man grammatischen oder statistischen Informationen den Vorzug gibt, oder ob man mehrere Modelle kombiniert was im Rahmen des SemGen Projektes wohl am vielversprechendsten ist. 2.4 Beispielfall: SOMs Mit dem SOM-Algorithmus können ohne vorherige Kenntnis der möglichen Klasseneinteilungen latente Strukturen aus den Daten herausgearbeitet werden. Die Kriterien, nach denen die SOM klassifiziert, hängen dabei unmittelbar vom Format der Eingabedaten ab. Bei der Kodierung wird festgelegt, welche Merkmale der Datensätze verglichen werden sollen. In der Literatur zur Anwendung des SOM-Algorithmus auf sprachliche Daten wird der Kontext jedoch in aller Regel mit dem direkten Wortkontext gleichgesetzt. Hier gibt es also noch einigen Spielraum, etwa die Erstellung mehrerer Karten für verschiedene grammatische Kategorien unter Verwendung verschiedener Vektorformate u.ä. 3. Vektorformat Nicht unerheblich ist neben der Wahl von Vektorraum und Kontextbreite auch das interne Format der Vektoren. Die Art, wie die zu verwendende Information kodiert wird, hat weiteren Einfluss auf die Ergebnisse der gewählten Perspektive. 3.1 Binäre Vektoren Die einfachste Beschreibung erfolgt durch binäre Vektoren i.e. durch alle Felder eines binären Vektors, die nicht Null sind. Hierfür gibt es eine Reihe von Ähnlichkeitsmaßen (cf. Manning/Schütze 1999: 299), von denen nur der cosinus auch bei nichtbinären Vektoren anwendbar ist.

5 3.2 Vektoren mit Zählerwerten Nichtbinäre Vektoren 3 scheinen sinnvoller für die Sprachverarbeitung, da so mehr Information je Einheit verfügbar ist neben der reinen Tatsache eines gemeinsamen Auftretens ist auch die Häufigkeit der Ereignisses eine Informationsquelle. Vektoren sind Spalten bzw. Zeilen einer Matrix Vektorraum ist Euklidisch (Operationen auf Matrizen) Ähnlichkeit wird berechnet durch den cosinus zweier Vektoren: cos 0 = 1.0 cos 90 = 0.0 cos 180 = -1.0 Um Vergleichsoperationen zu erleichtern, sollten die Vektoren normalisiert 4 sein. Dann erhält man den cosinus, indem man die einheitlichen Vektoren einfach miteinander multipliziert. cos (x,y) = x*y Der cosinus-wert von normalisierten Vektoren ist zudem gleichzeitig die sog. 'euclidean distance', die Entfernung im Vektorraum. 3.3 Probabilistische Vektoren Anstelle der natürlichen Zahlen können die Vektorelemente auch durch 'Quoten' bzw. Wahrscheinlichkeitswerte dargestellt werden. Dies macht v.a. deshalb Sinn, da die tatsächlichen Häufigkeiten des gemeinsamen Auftretens leicht zu einer Über- bzw. Unterbewertung führen können: Das mehrmalige Auftreten wird schnell als mehrfache Relevanz gegenüber einfachem Auftreten gewertet. Durch Verwendung von Wahrscheinlichkeiten bleiben die Werte näher beieinander (die Spanne ist auf 0-1 beschränkt), Abweichungen fallen weniger ins Gewicht 5. 3 Bei Manning/Schütze 1999:300 "real valued vector space". 4 Normalisiert heißt, dass die Vektoren die gleiche Länge im euklidischen Vektorraum haben. 5 Cf. auch Abschnitt 4: Gewichtung von Vektorelementen.

6 Eine probabilistische Matrix erhält man, indem man eine Zählermatrix (z.b. Wort-Wort) umrechnet: Man dividiert die einzelnen Elemente einer Zeile durch die Summe aller Elemente der Zeile (aller, die nicht 0 sind) 6. Ähnlichkeit ist nun Ähnlichkeit zwischen zwei Wahrscheinlichkeitsverteilungen. Sobald man Wahrscheinlichkeiten anstelle der Zählerwerte (counts) verwendet, ist die durch den cosinus berechnete euklidische Distanz wenig informativ: Die Distanz zwischen 0.0 und 0.1 entspricht der zwischen 0.9 und 1.0 dabei ist der Unterschied zwischen "unmöglich" und einer Wahrscheinlichkeit von 10% nicht derselbe wie der zwischen 90%iger und 100%iger Wahrscheinlichkeit. Euklidische Berechnungen wie der cosinus eignen sich demnach nur für normalverteilte Quantitäten nicht aber für Wahrscheinlichkeitsverteilungen. Für die Ähnlichkeitsberechnung eignet sich am besten der Information Radius (auch total divergence to the average). Dieser besagt, wie viel Information verloren geht, wenn man zwei Wörter durch ihre durchschnittliche Verteilung beschreibt. Eine genaue Beschreibung findet sich bei Manning/Schütze (1999: ). 4. Gewichtung von Vektorelementen Im VSM ist es möglich, die Vektorelemente zu gewichten (cf. Manning/Schütze 1999: 541f). Dadurch kann im gewählten Vektorraum eine zusätzliche Betonung bestimmter Kriterien vorgenommen werden. Die im Information Retrieval gängigsten Gewichtungen sind: - term frequency (tf) - Häufigkeit des Auftretens eines Terms je Dokument Die tf bezeichnet die Relevanz eines Wortes für ein Dokument. Häufiges Auftreten innerhalb eines Dokuments deutet auf eine tragende Rolle für das Dokument. Die Häufigkeit wird nicht gezählt, sondern berechnet. Tritt ein Wort 3x auf, bekommt es den Wert (1+ Wurzel3) oder (1+log3) andernfalls würde das dreimalige Auftreten als dreifache Relevanz gegenüber einfachem Auftreten gewertet. - document frequency (df) - Anzahl der Dokumente, in denen der Term auftritt Die df bezeichnet die Spezifizität eines Wortes für ein Thema (innerhalb eines Korpus). Sprache ist redundant. Vorausgesetzt, dass jedes Thema die Verwendung eines bestimmten Vokabulars verlangt, werden die entscheidenden Terme ( Schlüsselwörter ) 6 Beispiel: Ein Eintrag mit dem Wert 1.0 in einer Zeile mit fünf Elementen, von denen zwei ungleich 0 sind, hat nun den Wert 0.5

7 mit hoher Wahrscheinlichkeit innerhalb eines Themas mehrfach auftreten. Tritt ein Wort nur in wenigen Dokumenten auf, so wird angenommen, dass es einem bestimmten Thema besser zugeordnet werden kann. - collection frequency (cf) Anzahl des Auftretens eines Terms im gesamten Korpus cf ist ein rein statistischer wert, der nur von Nutzen ist, wenn die gesamte Verarbeitung auf einen fest gelegten Korpus beschränkt bleibt. Denkbar für eine Gewichtung wären auch hier syntaktische Eigenschaften (Kopf, Komplement, etc), sofern diese zugänglich sind. 5. Verwendung der Vektoren Im folgenden werden noch einige weiter führende Überlegungen angestellt. Es handelt sich um Fragen, die in unmittelbarem Zusammenhang mit der Vektorerstellung stehen. Da es in diesem Paper vornehmlich um die Vektorerstellung geht, besteht kein Anspruch auf Vollständigkeit. 5.1 Vorverarbeitung Bei größeren Datenmengen ist eine Vorverarbeitung (Filterung, Morphologie, Stemming, Trunkierung) unumgänglich, da die Dimensionalität der Vektoren mit dem Vokabular wächst. Als Beispiel sei Kaski et al. (1998: 111f) angeführt: Neben häufig auftretenden Wörtern (Stoppwörter) werden hier auch solche, die besonders selten auftreten, gefiltert. So konnte in einer Sammlung von ca. 1 Millionen Newsgroupbeiträgen die Anzahl der verschiedenen Wortformen von über 1 Millionen auf ca reduziert werden. Nach den oben gemachten Maßgaben müssten nun ebenso viele Vektoren genau dieser Länge erstellt werden. Dies ist extrem unhandlich. Daher ist zusätzlich zur Vorverarbeitung durch Stoppwortlisten oder grammatiken 7 eine Dimensionsreduktion der Vektoren unumgänglich, selbst wenn dadurch unter Umständen ein Teil der Informationen verloren gehen kann. Auf diese Weise kann eine einheitliche und 7 Auch wäre der Einsatz eines morphologischen Moduls denkbar, so dass an Stelle der einzelnen Wortformen nur die Stämme betrachtet werden.

8 möglichst kompakte, dabei zumindest weitgehend informationserhaltende Repräsentation erzielt werden. 5.2 Dimensionsreduktion: SOM Man muss dabei unterscheiden zwischen Methoden zur Verkleinerung der Vektoren - im Umgang mit SOMs wird hierfür meist das sog. Random mapping 8 verwendet - und solchen zur Reduktion des gesamten Datenraumes. SOMs beispielsweise sind eine Visualisierungsmethode, im Zuge der Visualisierung vollziehen sie eine Reduktion des Datenraumes auf zwei (oder drei) Dimensionen. Es wird deutlich, dass SOMs im wesentlichen nur eine besondere Form der Vektordarstellung sind: Anstelle des hochdimensionierten Vektors erhält man zwei Koordinaten, die noch immer das gleiche Wort repräsentieren. Auch hier wird ein Datenraum festgelegt, in dem die Daten dargestellt werden je nach Wahl des Raumes (der durch die Eingabedaten definiert ist) erhält man verschiedene Perspektiven auf die Wörter. Diese Tatsache erleichtert eine Weiterverarbeitung: Zwar ist die Ausgabe von SOMs auf den ersten Blick sperrig, jedoch ist bereits vor der Visualisierung der Karte die wesentliche Information (nämlich die Koordinaten) verfügbar. Entstandene Cluster könnten somit wahrscheinlich auch ohne Visualisierung erkannt werden. Weitere Techniken zur Visualisierung (respektive zur Dimensionsreduktion) sind u.a. die Principal Component Analysis (PCA), das Multidimensional Scaling (MDS), Hyperspace Analogue to Language (HAL) und auch das Latent Semantic Indexing (LSI) Dimensionsreduktion: LSI LSI ist ein Verfahren, die latenten (= vorhanden, aber nicht sichtbar) semantischen Beziehungen von Dokumenten freizulegen. LSI macht inhaltliche Verwandtschaft sichtbar, indem Dokumente in einem Raum mit neuen, 'semantischen' Dimensionen dargestellt werden. Ausgehend von einer hochdimensionalen (so viele Dimensionen wie verschiedene Wörter) Term-Dokument-Matrix wird ein Raum mit weit weniger Dimensionen erzeugt,. in welchem die gleichen Objekte (Dokumente und Terme) repräsentiert werden. Die Dimensionen des reduzierten Raums korrespondieren dabei zu den Achsen mit der größten Variation (bzw. Abweichung 8 Zur genauen Vorgehensweise cf. Kaski et al. (1998) und Kaski (1998). 9 Einen Vergleich von LSI mit Multidimensional Scaling (MDS), einer weiteren Methode der Dimensionsreduktion, findet sich bei Bartell et al. (????).

9 untereinander), sie erfassen somit die grundlegenden Unterschiede der einzelnen Dokumente. Die wesentlichen Merkmale des ursprünglichen Raums bleiben dabei erhalten. Dadurch können Dokumente aus einem gleichen Themenbereich auch trotz unterschiedlichen Vokabulars als ähnlich erkannt werden. Übertragen auf eine Term-Term-Matrix bedeutet dies, dass diejenigen Termvektoren wegfallen, denen eine geringe Aussagekraft unterstellt wird - wenn nun jede Dimension durch einen Termvektor festgelegt ist, ist demnach ein Teil der Vektoren im reduzierten Raum nicht mehr enthalten. Ähnlich der Stoppwortfilterung werden so im allgemeinen die häufigsten Wörter ausgeblendet, da diese je nach Kontextbreite - zueinander recht ähnliche Vektoren haben (etwa die Konjunktionen "und"/"oder"). Das Prinzip ist vergleichbar zu der oben genannten Beschreibung von Wortformen durch binäre Vektoren: Während man dort nur die Elemente, die nicht Null sind, für die Beschreibung verwendet, sind es beim LSI nur diejenigen, die eine besondere Aussagekraft haben. Eine ausführlichere Beschreibung zu LSI findet sich bei Deerwester et al. (1990), sowie bei Manning/Schütze (1999 : ). 5.3 Bewertung von LSI Der Hauptkritikpunkt ist der große Speicherplatzbedarf sowie die hohe Komplexität des Verfahrens. Allerdings gibt es die Möglichkeit, neue Dokument- bzw. Termvektoren einzubinden, ebenso kann aufgrund einer Teilanalyse der restliche Korpus bewertet werden. Man muss also nicht für jeden Fall eine neue Berechnung durchführen. Eine weitere Bedingung für ein erfolgreiches Anwenden von LSI ist die Beschaffenheit des verwendeten Korpus. Bei Sammlungen mit stark heterogenem Vokabular werden sehr gute Werte erzielt, da die thematische Verwandtschaft auch bei offensichtlich verschiedenem Vokabular erkannt werden kann. Entsprechend weniger sinnvoll ist es bei Sammlungen mit sehr homogenem Vokabular (Fachdatenbanken, Sammlungen von Abstracts u.ä.). Allgemein gilt: Je größer die analysierten Datenmengen sind, desto höher wird die Genauigkeit der Ergebnisse, da mit zunehmender Menge die Sonderfälle (i.e. abweichenden Verwendungen) weniger ins Gewicht fallen. 6. Probleme, Ansatzpunkte, etc.

10 Auch wenn das VSM vielversprechend hinsichtlich der Erschließung von Wortbedeutungen ist, kann es viele Schwierigkeiten sprachlicher Daten nicht lösen. So bliebt die Ambiguität grundsätzlich erhalten: Semantische Ähnlichkeit ist immer Ähnlichkeit einer Lesart zu einer anderen, das Wort "Bank" ist gleichsam ähnlich zu "Sparkasse" wie zu "Parkbank". Da die Vektoren je Wortform erstellt werden, gibt es nur einen Vektor für "Bank" - das wiederum bringt mit sich, dass im VSM auch "Sparkasse" und "Parkbank" ähnlich sind. Das Beispiel ist trivial, weist jedoch auf das eigentliche Problem hin: In verschiedener Verwendung erfahren sprachliche Ausdrücke zum Teil erhebliche Bedeutungsveränderungen diese dürfen nicht in einer einzigen Repräsentation (und somit einer einzelnen Wortbedeutung) untergehen. Gesucht ist ein Weg, einzelne Lesarten zu kodieren, anstatt die Gesamtheit der möglichen Bedeutungen einer Wortform in einem Vektor zusammenzufassen (so dass er zu allen Lesarten ähnlich ist...) Weitere Überlegungen könnten sich demnach auch auf einmalige Vektorerstellung richten, etwa anstelle eines 'Kontextdurchschnitts' die Verwendung des jeweils konkreten Kontextes eines Auftretens, um anschließend diese Vektoren untereinander zu Vergleichen, um z.b. thematische Unterschiede innerhalb der jeweiligen Kontexte zu erkennen. 7. Literatur Bartell, Brian T. and Belew, Richard K. and Cottrell, Garrison W.: Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling. Deerwester, Scott and Dumais, Susan T. and Furnas, George W. and Landauer, Thomas K. and Harshman, Richard (1990): Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science Vol. 41 No. 6 S Kaski, S., Honkela, T., Lagus, K. & Kohonen, T. (1998): WEBSOM Self-organizing maps of document collections. Neurocomputing 21; S Kaski, Samuel (1998): Dimensionality Reduction by Random Mapping: Fast Similarity Computation for Clustering. In: Proceedings of IJCNN'98, International Joint Conference on Neural Networks, Vol. 1, S Kohonen, Teuvo (1989): Self-Organizization and associative memory. Berlin, Heidelberg, New York: Springer. - (1995): Self-Organizing Maps. Berlin, Heidelberg, New York: Springer. - (1998): The self-organizing map. Neurocomputing 21; S Manning, Christopher D. and Schütze, Hinrich (1999): Foundations of statistical natural language processing. MIT Press 1999.

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Semantisches Gedächtnis HAL-Modell Experimente Fazit Literatur HAL. Hyperspace Analogue to Language. Mandy Neumann. 30. April 2012

Semantisches Gedächtnis HAL-Modell Experimente Fazit Literatur HAL. Hyperspace Analogue to Language. Mandy Neumann. 30. April 2012 HAL Hyperspace Analogue to Language Mandy Neumann 30. April 2012 Inhalt Semantisches Gedächtnis HAL-Modell Experimente Fazit Gedächtnisstruktur Prozedurales (implizites) Gedächtnis Gedächtnisstruktur Prozedurales

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Texttechnologien: Latent Semantic Indexing

Texttechnologien: Latent Semantic Indexing Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen

Mehr

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse

Mehr

9. Vorlesung Lineare Algebra, SVD und LSI

9. Vorlesung Lineare Algebra, SVD und LSI 9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Midas Metadata yield by Data Analysis

Midas Metadata yield by Data Analysis Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

Einführung in die medizinische Bildverarbeitung WS 12/13

Einführung in die medizinische Bildverarbeitung WS 12/13 Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Information-Retrieval: Vektorraum-Modell

Information-Retrieval: Vektorraum-Modell Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances

Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances Luisa Schwartz Universität Bonn Institut für Numerische Simulation Fraunhofer SCAI 25. September 2014 Luisa Schwartz

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/ Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur

Mehr

Der Alpha-Beta-Algorithmus

Der Alpha-Beta-Algorithmus Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Übungen mit dem Applet Zentraler Grenzwertsatz

Übungen mit dem Applet Zentraler Grenzwertsatz Zentraler Grenzwertsatz 1 Übungen mit dem Applet Zentraler Grenzwertsatz 1 Statistischer Hintergrund... 1.1 Zentraler Grenzwertsatz... 1. Beispiel Würfeln... 1.3 Wahrscheinlichkeit und relative Häufigkeit...3

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

Lineares Gleichungssystem - Vertiefung

Lineares Gleichungssystem - Vertiefung Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus

Mehr

Teil 111. Chart-Parsing

Teil 111. Chart-Parsing Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),

Mehr

TOPSIS. Eine Technik der Effizienzanalyse

TOPSIS. Eine Technik der Effizienzanalyse TOPSIS Eine Technik der Effizienzanalyse 1 Literatur Peters, Malte L. und Zelewski, Stephan: TOPSIS als Technik zur Effizienzanalyse. Wirtschaftsstudium, Heft 1, 2007, S. 9-15 http://www.pim.uni-due.de/fileadmin/publikationen/topsis_zur_effizienzanalyse.pdf

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik

Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik Christine Engelmann Germanistische Sprachwissenschaft (Friedrich-Schiller-Universität Jena) 18.01.2013 Forschungsbereich innerhalb der

Mehr

Lösungen Serie 6 (Vektorräume, Skalarprodukt)

Lösungen Serie 6 (Vektorräume, Skalarprodukt) Fachhochschule Nordwestschweiz (FHNW Hochschule für Technik Institut für Geistes- und Naturwissenschaft Lösungen Serie 6 (Vektorräume, Skalarprodukt Dozent: Roger Burkhardt Klasse: Studiengang ST Büro:

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

37 Gauß-Algorithmus und lineare Gleichungssysteme

37 Gauß-Algorithmus und lineare Gleichungssysteme 37 Gauß-Algorithmus und lineare Gleichungssysteme 37 Motivation Lineare Gleichungssysteme treten in einer Vielzahl von Anwendungen auf und müssen gelöst werden In Abschnitt 355 haben wir gesehen, dass

Mehr

Nennung der 1. These: Thema ist ein bereits bekanntes Element, das aus dem Kontext erschließbar ist

Nennung der 1. These: Thema ist ein bereits bekanntes Element, das aus dem Kontext erschließbar ist Aufgabenstellung zum Thema: Thema und Rhema, Text aus: Lutz, Luise (1981): Zum Thema: Thema. Einführung in die Thema-Rhema-Theorie. Hamburg (= Hamburger Arbeiten zur Linguistik und Texttheorie 1) Bitte

Mehr

Korrespondenzanalyse

Korrespondenzanalyse Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung

Mehr

2 Darstellung von Zahlen und Zeichen

2 Darstellung von Zahlen und Zeichen 2.1 Analoge und digitale Darstellung von Werten 79 2 Darstellung von Zahlen und Zeichen Computer- bzw. Prozessorsysteme führen Transformationen durch, die Eingaben X auf Ausgaben Y abbilden, d.h. Y = f

Mehr

Das Phänomen der Cross-Polaren Anomalie bei Dimensionsadjektiven aus der Sicht von Bierwisch und Kennedy

Das Phänomen der Cross-Polaren Anomalie bei Dimensionsadjektiven aus der Sicht von Bierwisch und Kennedy Sprachen Sebastian Arndt Das Phänomen der Cross-Polaren Anomalie bei Dimensionsadjektiven aus der Sicht von Bierwisch und Kennedy Einleitung Die vorliegende Arbeitbefasst sich mit dem Thema der graduierbaren

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs

Mehr

Kohonennetze für Information Retrieval mit User Feedback

Kohonennetze für Information Retrieval mit User Feedback Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg 06.02.2003 Zusammenfassung Richtig eingesetzt, sind selbstorganisierende Karten (SOM) ein probates

Mehr

, v 3 = und v 4 =, v 2 = V 1 = { c v 1 c R }.

, v 3 = und v 4 =, v 2 = V 1 = { c v 1 c R }. 154 e Gegeben sind die Vektoren v 1 = ( 10 1, v = ( 10 1. Sei V 1 = v 1 der von v 1 aufgespannte Vektorraum in R 3. 1 Dann besteht V 1 aus allen Vielfachen von v 1, V 1 = { c v 1 c R }. ( 0 ( 01, v 3 =

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 13 10. Juni 2010 Kapitel 10. Lineare Gleichungssysteme In diesem Abschnitt untersuchen wir, welche Struktur die Gesamtheit aller Lösungen eines linearen

Mehr

Lösungen Serie 6 (Vektorräume, Skalarprodukt)

Lösungen Serie 6 (Vektorräume, Skalarprodukt) Name: Seite: 1 Fachhochschule Nordwestschweiz (FHNW) Hochschule für Technik Lösungen Serie 6 (Vektorräume, Skalarprodukt) Dozent: R. Burkhardt Büro: 4.613 Klasse: 1. Studienjahr Semester: 1 Datum: HS 28/9

Mehr

Mathematik II Frühjahrssemester 2013

Mathematik II Frühjahrssemester 2013 Mathematik II Frühjahrssemester 213 Prof. Dr. Erich Walter Farkas Kapitel 7: Lineare Algebra Kapitel 7.5: Eigenwerte und Eigenvektoren einer quadratischen Matrix Prof. Dr. Erich Walter Farkas Mathematik

Mehr

Der Kern einer Matrix

Der Kern einer Matrix Die elementaren Zeilenoperationen p. 1 Der Kern einer Matrix Multipliziert man eine Matrix mit den Spaltenvektoren s 1,..., s m von rechts mit einem Spaltenvektor v := (λ 1,..., λ m ) T, dann ist das Ergebnis

Mehr

Clusteranalyse von Nachrichtenartikeln

Clusteranalyse von Nachrichtenartikeln Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln

Mehr

Euklidische Distanzmatrizen. Andrei Grecu

Euklidische Distanzmatrizen. Andrei Grecu Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer

Mehr

9. Kombination von Vektor- und Rasterdaten

9. Kombination von Vektor- und Rasterdaten 9. Kombination von Vektor- und Rasterdaten 1. Vergleich von Vektor- und Rasterdaten 2. Morphologische Operationen 3. Transformationen des Formats 4. Kombinierte Auswertungen Geo-Informationssysteme 224

Mehr

A2.3 Lineare Gleichungssysteme

A2.3 Lineare Gleichungssysteme A2.3 Lineare Gleichungssysteme Schnittpunkte von Graphen Bereits weiter oben wurden die Schnittpunkte von Funktionsgraphen mit den Koordinatenachsen besprochen. Wenn sich zwei Geraden schneiden, dann müssen

Mehr

Kapitel 16. Invertierbare Matrizen

Kapitel 16. Invertierbare Matrizen Kapitel 16. Invertierbare Matrizen Die drei Schritte des Gauß-Algorithmus Bringe erweiterte Matrix [A b] des Gleichungssystems A x auf Zeilenstufenform [A b ]. Das System A x = b ist genau dann lösbar,

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

6. Faktorenanalyse (FA) von Tests

6. Faktorenanalyse (FA) von Tests 6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...

Mehr

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse)

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Seminar für Statistik Markus Kalisch 25.11.2014 1 Unsupervised Learning Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen

Mehr

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften

Mehr

Seminar Datenbanksysteme

Seminar Datenbanksysteme Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System

Mehr

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

10.2 Linearkombinationen

10.2 Linearkombinationen 147 Vektorräume in R 3 Die Vektorräume in R 3 sind { } Geraden durch den Ursprung Ebenen durch den Ursprung R 3 Analog zu reellen Vektorräumen kann man komplexe Vektorräume definieren. In der Definition

Mehr

Kurs über Lineare Gleichungssysteme. PD Dr. Karin Halupczok

Kurs über Lineare Gleichungssysteme. PD Dr. Karin Halupczok Kurs über Lineare Gleichungssysteme PD Dr. Karin Halupczok Mathematisches Institut Albert-Ludwigs-Universität Freiburg http://home.mathematik.unifreiburg.de/halupczok/diverses.html karin.halupczok@math.uni-freiburg.de

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die

Mehr

How dynamic are IP Addresses?

How dynamic are IP Addresses? Paper How dynamic are IP Addresses? Y. Xie, F. Yu, K. Achan, E. Gillum, M. Goldszmidt, T. Wobber Network Architectures: Internet Routing WS 2007/08 Benjamin Vahl SE Internet Routing WS2007/08 1 Einführung

Mehr

Sprache systematisch verbessern. Eugen Okon

Sprache systematisch verbessern. Eugen Okon Sprache systematisch verbessern Eugen Okon Sprache systematisch verbessern Gliederung Einleitung Die CLEAR Methode CLEAR in einer Fallstudie Ergebnisse und Bewertung Zusammenfassung Sprache systematisch

Mehr

Themen für Beiträge Seminar Selbstorganisation und Emergenz im Sommersemester 2009 Arbeitsgruppe Datenbionik Prof. Dr.

Themen für Beiträge Seminar Selbstorganisation und Emergenz im Sommersemester 2009 Arbeitsgruppe Datenbionik Prof. Dr. Themen für Beiträge Seminar Selbstorganisation und Emergenz im Sommersemester 2009 Arbeitsgruppe Datenbionik Prof. Dr. Alfred Ultsch Don t panic! Die Vorträge dürfen auf Deutsch oder Englisch gehalten

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin Kapitel 1 Einleitung 1.1. Begriff des Algorithmus Eine der ältesten Beschreibungstechniken für Abläufe: Benannt nach dem Mathematiker Al-Khwarizmi (ca. 780...840), der am Hof der Kalifen von Bagdad wirkte.

Mehr

f h c 7 a 1 b 1 g 2 2 d

f h c 7 a 1 b 1 g 2 2 d ) Man bestimme mit Hilfe des Dijkstra-Algorithmus einen kürzesten Weg von a nach h: c 7 a b f 5 h 3 4 5 i e 6 g 2 2 d Beim Dijkstra-Algorithmus wird in jedem Schritt von den noch unmarkierten Knoten jener

Mehr

3 Lineare Algebra (Teil 1): Lineare Unabhängigkeit

3 Lineare Algebra (Teil 1): Lineare Unabhängigkeit 3 Lineare Algebra (Teil : Lineare Unabhängigkeit 3. Der Vektorraum R n Die Menge R n aller n-dimensionalen Spalten a reeller Zahlen a,..., a n R bildet bezüglich der Addition a b a + b a + b. +. :=. (53

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum

Mehr