SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren
|
|
- Annegret Gärtner
- vor 6 Jahren
- Abrufe
Transkript
1 SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren Spinfo-internes Paper Claes Neuefeind Mai 2003 Im Rahmen des SemGen Projektes sollen sprachliche Daten in verschiedenen Verarbeitungsstufen algorithmisch verarbeitet werden. Einige der Algorithmen (u.a. SOM, LSI) verlangen eine vektorielle Repräsentation. Damit die verschiedenen Vektoren nicht korrelieren, benötigt man für jede Wortform einen eindeutigen Vektor. Wünschenswert ist dabei, bereits vorliegende Informationen für die Repräsentation zu verwenden, damit diese auch in weiteren Verarbeitungsschritten erhalten bleiben. Wesentlich für das Projekt ist dabei der Fokus auf die Semantik: Es soll nur der Inhalt der Wörter verglichen werden, dennoch muss die symbolische Repräsentation für die Lesbarkeit der Ausgaben in die Kodierung mit einfließen 1. Dass bereits die Beschaffenheit der Daten und somit auch die Wahl der Repräsentation Einfluss auf die Ergebnisse hat, ist dabei ein erwarteter Befund. Ist das Gewicht des symbolischen Teils sehr hoch, gruppieren sich die Daten nach ihrer Form - um eine inhaltlich Klassifizierung zu erhalten, muss somit der Kontext stärker ins Gewicht fallen. Dieses Paper versucht, diesen Umstand ein wenig zu beleuchten: Was sind die Kriterien, nach denen eine Repräsentation erstellt werden kann? Was eigentlich ist der Kontext in diesem Zusammenhang und wie kann dieser eingebunden werden? Welche weiteren Faktoren spielen bei der Erstellung eine Rolle? Darüber hinaus werden einige mit Wahl der Repräsentation verbundenen Konsequenzen für die Verarbeitung angesprochen. 1. Zufallsvektoren Eine erste Intuition ist die Verwendung von Zufallsvektoren. Ihr wesentlicher Vorteil ist die leichte Erstellung (einfach Länge festlegen und Zufallszahlen vergeben). Der Nachteil ist, dass die Zuordnung des Vektors zur Wortform ebenso arbiträr ist, wie die zwischen Wortform und Inhalt (man hätte ebenso gut die Ascii-Werte summieren und dann Quersummen bilden können...) Die Erklärung ist recht einfach: Zufallsvektoren enthalten keinerlei Informationen, sie sind nichts weiter als eine weitere Repräsentationsebene. Semantisch 1 Z.B. für die Auszeichnung der durch SOMs abgebildeten Daten bei der Visualisierung.
2 eindeutig werden die Vektoren erst, wenn Ihnen Kontextinformation zugefügt wird. Um dies unter Verwendung von Zufallsvektoren zu erreichen, muss man alle Vektoren innerhalb der gewählten Kontextbreite 'sammeln' und daraus eine Signatur (einen Durchschnitt) errechnen was je nach Länge der Vektoren einen erheblichen Rechenaufwand mit sich bringt. Hinzu kommt als weiterer Nachteil die Schwierigkeit einer nachträglichen Einbindung weiterer Vektoren, welche nur möglich ist, wenn man Buch führt über die bereits vergebenen Zufallszahlen. 2. Vector Space Model (VSM) nach Manning/Schütze (1999: 539ff). Es gibt andere Wege, um eindeutige Vektoren zu erstellen, die bereits bei der ersten Berechnung kontextuelle Informationen nutzen, um die Wortform zu beschreiben. Dies hat den Vorteil, dass bereits vorliegende Informationen in der Repräsentation des Wortes enthalten sind und in weiteren Verarbeitungsschritten auch erhalten bleiben. Im VSM werden Wörter als Vektoren in hochdimensionierten Räumen dargestellt. Dazu wird zunächst ein Vektorraum (= eine Matrix) mit je einer Dimension je Wort definiert. Wörter sind hier beispielsweise Vektoren in einem Dokumentenraum, oder aus anderer Perspektive - Elemente von Dokumentvektoren, die zusätzlich gewichtet werden können (s.u.). Die Eindeutigkeit der Vektoren wird hier erst durch die Beschreibung erzielt. Im Folgenden seien Beispiele solcher Vektorräume aufgeführt: 2.1 document space Auftreten von Wörtern innerhalb verschiedener Dokumente. Wörter werden hier thematisch klassifiziert, die Kontextbreite ist abhängig von der Größe der Dokumente. Die Wahl von Dokumenten als Einheit entstammt dem Information Retrieval, was neben einer verarbeitungstechnischen Motivation auch den Grund hat, dass Dokumente in der Regel in sich geschlossene thematische Einheiten sind. Aus der Perspektive der Terme (t1-3) sind die Dokumente (d1-3), in denen sie auftreten, der Kontext die Zeilen der Matrix sind die Wortvektoren: d1 d2 d3 t t t
3 2.2 word space 'Kookkurenzmatrix' 2 : Auftreten von Wörtern zusammen mit anderen Wörtern innerhalb eines festgelegten 'Fensters' dies können die direkten Nachbarn sein oder gleich 10 oder gar 100 Wörter. Auch Einheiten wie Satz, Absatz oder Phrase sind möglich. Die Wahl der Kontextbreite hat erheblichen Einfluss auf die Ähnlichkeitsverteilung. Hier sind Zeilen und Spalten identische Wortvektoren: t1 t2 t3 t t t grammatischer Raum, z.b. modifier space Auftreten eines Kopfes N mit Adjektiven. Der Raum wird definiert durch die Adjektive, die nominalen Köpfe sind Vektoren in diesem Raum. Derartige Matrizen können für jeden Phrasentyp erstellt werden, sofern entsprechende syntaktische Information zugänglich ist. Anhand der Beispiele lässt sich folgendes festhalten: Zum einen ist die Art des Kontextes (thematisch, grammatisch,...) entscheidend, zum anderen ist die Kontextbreite eine veränderliche Größe hier gilt es, ein sinnvolles Maß zu finden (n-gram; Satz;...). Durch die Wahl des Vektorraums werden jeweils andere Informationen verwendet und dadurch verschiedene Eigenschaften betont. Der Raum hat entscheidenden Einfluss auf die Interpretation der Ergebnisse, er determiniert die Art der semantischen Ähnlichkeit. Die Verwendung eines linguistisch ausgezeichneten Kontextes liefert andere Ergebnisse als ein numerisch festgelegter; der modifier space reflektiert eher die gleiche oder ähnliche Verwendung verschiedener Wörter, wohingegen im document space nur die Verwendung innerhalb eines gleichen Diskurses/Themas zum Ausdruck kommt. Durch die Einbindung grammatischen Wissens kann man Generalisierungen über die Verwendung unbekannter Wörter treffen durch Kookkurenzmodelle hingegen lassen sich thematische Ähnlichkeiten finden. Dies ist eher für Nomina denn für Verben interessant, da 2 Kookkurenz bezeichnet die Annahme, dass Wörter, die gemeinsam auftreten, semantisch verwandt im Sinne eines gemeinsamen Themenbereichs sind. Erfasst wird unter dieser Bezeichnung das gemeinsame Auftreten zweier oder mehrerer Terme innerhalb eines festgelegten Kontextfensters, sobald es häufiger als im Durchschnitt (der ermittelt werden muss) geschieht und daher nicht mehr als zufällig gewertet werden kann.
4 letztere nicht so sehr an einen Diskurs gebunden sind (das Verb 'laufen' etwa, welches als Bewegungsverb oder als kinetische Metapher verwendet wird "wie läuft es" "ich laufe..."). Es ist demnach bei der Erstellung von Vektoren wesentlich, ob man sich für ein Kookkurenzmodell (sog. 'bag of words') entscheidet, oder auch relationale Informationen einbezieht (Subjekt-Objekt-Beziehungen u.ä.), ob man grammatischen oder statistischen Informationen den Vorzug gibt, oder ob man mehrere Modelle kombiniert was im Rahmen des SemGen Projektes wohl am vielversprechendsten ist. 2.4 Beispielfall: SOMs Mit dem SOM-Algorithmus können ohne vorherige Kenntnis der möglichen Klasseneinteilungen latente Strukturen aus den Daten herausgearbeitet werden. Die Kriterien, nach denen die SOM klassifiziert, hängen dabei unmittelbar vom Format der Eingabedaten ab. Bei der Kodierung wird festgelegt, welche Merkmale der Datensätze verglichen werden sollen. In der Literatur zur Anwendung des SOM-Algorithmus auf sprachliche Daten wird der Kontext jedoch in aller Regel mit dem direkten Wortkontext gleichgesetzt. Hier gibt es also noch einigen Spielraum, etwa die Erstellung mehrerer Karten für verschiedene grammatische Kategorien unter Verwendung verschiedener Vektorformate u.ä. 3. Vektorformat Nicht unerheblich ist neben der Wahl von Vektorraum und Kontextbreite auch das interne Format der Vektoren. Die Art, wie die zu verwendende Information kodiert wird, hat weiteren Einfluss auf die Ergebnisse der gewählten Perspektive. 3.1 Binäre Vektoren Die einfachste Beschreibung erfolgt durch binäre Vektoren i.e. durch alle Felder eines binären Vektors, die nicht Null sind. Hierfür gibt es eine Reihe von Ähnlichkeitsmaßen (cf. Manning/Schütze 1999: 299), von denen nur der cosinus auch bei nichtbinären Vektoren anwendbar ist.
5 3.2 Vektoren mit Zählerwerten Nichtbinäre Vektoren 3 scheinen sinnvoller für die Sprachverarbeitung, da so mehr Information je Einheit verfügbar ist neben der reinen Tatsache eines gemeinsamen Auftretens ist auch die Häufigkeit der Ereignisses eine Informationsquelle. Vektoren sind Spalten bzw. Zeilen einer Matrix Vektorraum ist Euklidisch (Operationen auf Matrizen) Ähnlichkeit wird berechnet durch den cosinus zweier Vektoren: cos 0 = 1.0 cos 90 = 0.0 cos 180 = -1.0 Um Vergleichsoperationen zu erleichtern, sollten die Vektoren normalisiert 4 sein. Dann erhält man den cosinus, indem man die einheitlichen Vektoren einfach miteinander multipliziert. cos (x,y) = x*y Der cosinus-wert von normalisierten Vektoren ist zudem gleichzeitig die sog. 'euclidean distance', die Entfernung im Vektorraum. 3.3 Probabilistische Vektoren Anstelle der natürlichen Zahlen können die Vektorelemente auch durch 'Quoten' bzw. Wahrscheinlichkeitswerte dargestellt werden. Dies macht v.a. deshalb Sinn, da die tatsächlichen Häufigkeiten des gemeinsamen Auftretens leicht zu einer Über- bzw. Unterbewertung führen können: Das mehrmalige Auftreten wird schnell als mehrfache Relevanz gegenüber einfachem Auftreten gewertet. Durch Verwendung von Wahrscheinlichkeiten bleiben die Werte näher beieinander (die Spanne ist auf 0-1 beschränkt), Abweichungen fallen weniger ins Gewicht 5. 3 Bei Manning/Schütze 1999:300 "real valued vector space". 4 Normalisiert heißt, dass die Vektoren die gleiche Länge im euklidischen Vektorraum haben. 5 Cf. auch Abschnitt 4: Gewichtung von Vektorelementen.
6 Eine probabilistische Matrix erhält man, indem man eine Zählermatrix (z.b. Wort-Wort) umrechnet: Man dividiert die einzelnen Elemente einer Zeile durch die Summe aller Elemente der Zeile (aller, die nicht 0 sind) 6. Ähnlichkeit ist nun Ähnlichkeit zwischen zwei Wahrscheinlichkeitsverteilungen. Sobald man Wahrscheinlichkeiten anstelle der Zählerwerte (counts) verwendet, ist die durch den cosinus berechnete euklidische Distanz wenig informativ: Die Distanz zwischen 0.0 und 0.1 entspricht der zwischen 0.9 und 1.0 dabei ist der Unterschied zwischen "unmöglich" und einer Wahrscheinlichkeit von 10% nicht derselbe wie der zwischen 90%iger und 100%iger Wahrscheinlichkeit. Euklidische Berechnungen wie der cosinus eignen sich demnach nur für normalverteilte Quantitäten nicht aber für Wahrscheinlichkeitsverteilungen. Für die Ähnlichkeitsberechnung eignet sich am besten der Information Radius (auch total divergence to the average). Dieser besagt, wie viel Information verloren geht, wenn man zwei Wörter durch ihre durchschnittliche Verteilung beschreibt. Eine genaue Beschreibung findet sich bei Manning/Schütze (1999: ). 4. Gewichtung von Vektorelementen Im VSM ist es möglich, die Vektorelemente zu gewichten (cf. Manning/Schütze 1999: 541f). Dadurch kann im gewählten Vektorraum eine zusätzliche Betonung bestimmter Kriterien vorgenommen werden. Die im Information Retrieval gängigsten Gewichtungen sind: - term frequency (tf) - Häufigkeit des Auftretens eines Terms je Dokument Die tf bezeichnet die Relevanz eines Wortes für ein Dokument. Häufiges Auftreten innerhalb eines Dokuments deutet auf eine tragende Rolle für das Dokument. Die Häufigkeit wird nicht gezählt, sondern berechnet. Tritt ein Wort 3x auf, bekommt es den Wert (1+ Wurzel3) oder (1+log3) andernfalls würde das dreimalige Auftreten als dreifache Relevanz gegenüber einfachem Auftreten gewertet. - document frequency (df) - Anzahl der Dokumente, in denen der Term auftritt Die df bezeichnet die Spezifizität eines Wortes für ein Thema (innerhalb eines Korpus). Sprache ist redundant. Vorausgesetzt, dass jedes Thema die Verwendung eines bestimmten Vokabulars verlangt, werden die entscheidenden Terme ( Schlüsselwörter ) 6 Beispiel: Ein Eintrag mit dem Wert 1.0 in einer Zeile mit fünf Elementen, von denen zwei ungleich 0 sind, hat nun den Wert 0.5
7 mit hoher Wahrscheinlichkeit innerhalb eines Themas mehrfach auftreten. Tritt ein Wort nur in wenigen Dokumenten auf, so wird angenommen, dass es einem bestimmten Thema besser zugeordnet werden kann. - collection frequency (cf) Anzahl des Auftretens eines Terms im gesamten Korpus cf ist ein rein statistischer wert, der nur von Nutzen ist, wenn die gesamte Verarbeitung auf einen fest gelegten Korpus beschränkt bleibt. Denkbar für eine Gewichtung wären auch hier syntaktische Eigenschaften (Kopf, Komplement, etc), sofern diese zugänglich sind. 5. Verwendung der Vektoren Im folgenden werden noch einige weiter führende Überlegungen angestellt. Es handelt sich um Fragen, die in unmittelbarem Zusammenhang mit der Vektorerstellung stehen. Da es in diesem Paper vornehmlich um die Vektorerstellung geht, besteht kein Anspruch auf Vollständigkeit. 5.1 Vorverarbeitung Bei größeren Datenmengen ist eine Vorverarbeitung (Filterung, Morphologie, Stemming, Trunkierung) unumgänglich, da die Dimensionalität der Vektoren mit dem Vokabular wächst. Als Beispiel sei Kaski et al. (1998: 111f) angeführt: Neben häufig auftretenden Wörtern (Stoppwörter) werden hier auch solche, die besonders selten auftreten, gefiltert. So konnte in einer Sammlung von ca. 1 Millionen Newsgroupbeiträgen die Anzahl der verschiedenen Wortformen von über 1 Millionen auf ca reduziert werden. Nach den oben gemachten Maßgaben müssten nun ebenso viele Vektoren genau dieser Länge erstellt werden. Dies ist extrem unhandlich. Daher ist zusätzlich zur Vorverarbeitung durch Stoppwortlisten oder grammatiken 7 eine Dimensionsreduktion der Vektoren unumgänglich, selbst wenn dadurch unter Umständen ein Teil der Informationen verloren gehen kann. Auf diese Weise kann eine einheitliche und 7 Auch wäre der Einsatz eines morphologischen Moduls denkbar, so dass an Stelle der einzelnen Wortformen nur die Stämme betrachtet werden.
8 möglichst kompakte, dabei zumindest weitgehend informationserhaltende Repräsentation erzielt werden. 5.2 Dimensionsreduktion: SOM Man muss dabei unterscheiden zwischen Methoden zur Verkleinerung der Vektoren - im Umgang mit SOMs wird hierfür meist das sog. Random mapping 8 verwendet - und solchen zur Reduktion des gesamten Datenraumes. SOMs beispielsweise sind eine Visualisierungsmethode, im Zuge der Visualisierung vollziehen sie eine Reduktion des Datenraumes auf zwei (oder drei) Dimensionen. Es wird deutlich, dass SOMs im wesentlichen nur eine besondere Form der Vektordarstellung sind: Anstelle des hochdimensionierten Vektors erhält man zwei Koordinaten, die noch immer das gleiche Wort repräsentieren. Auch hier wird ein Datenraum festgelegt, in dem die Daten dargestellt werden je nach Wahl des Raumes (der durch die Eingabedaten definiert ist) erhält man verschiedene Perspektiven auf die Wörter. Diese Tatsache erleichtert eine Weiterverarbeitung: Zwar ist die Ausgabe von SOMs auf den ersten Blick sperrig, jedoch ist bereits vor der Visualisierung der Karte die wesentliche Information (nämlich die Koordinaten) verfügbar. Entstandene Cluster könnten somit wahrscheinlich auch ohne Visualisierung erkannt werden. Weitere Techniken zur Visualisierung (respektive zur Dimensionsreduktion) sind u.a. die Principal Component Analysis (PCA), das Multidimensional Scaling (MDS), Hyperspace Analogue to Language (HAL) und auch das Latent Semantic Indexing (LSI) Dimensionsreduktion: LSI LSI ist ein Verfahren, die latenten (= vorhanden, aber nicht sichtbar) semantischen Beziehungen von Dokumenten freizulegen. LSI macht inhaltliche Verwandtschaft sichtbar, indem Dokumente in einem Raum mit neuen, 'semantischen' Dimensionen dargestellt werden. Ausgehend von einer hochdimensionalen (so viele Dimensionen wie verschiedene Wörter) Term-Dokument-Matrix wird ein Raum mit weit weniger Dimensionen erzeugt,. in welchem die gleichen Objekte (Dokumente und Terme) repräsentiert werden. Die Dimensionen des reduzierten Raums korrespondieren dabei zu den Achsen mit der größten Variation (bzw. Abweichung 8 Zur genauen Vorgehensweise cf. Kaski et al. (1998) und Kaski (1998). 9 Einen Vergleich von LSI mit Multidimensional Scaling (MDS), einer weiteren Methode der Dimensionsreduktion, findet sich bei Bartell et al. (????).
9 untereinander), sie erfassen somit die grundlegenden Unterschiede der einzelnen Dokumente. Die wesentlichen Merkmale des ursprünglichen Raums bleiben dabei erhalten. Dadurch können Dokumente aus einem gleichen Themenbereich auch trotz unterschiedlichen Vokabulars als ähnlich erkannt werden. Übertragen auf eine Term-Term-Matrix bedeutet dies, dass diejenigen Termvektoren wegfallen, denen eine geringe Aussagekraft unterstellt wird - wenn nun jede Dimension durch einen Termvektor festgelegt ist, ist demnach ein Teil der Vektoren im reduzierten Raum nicht mehr enthalten. Ähnlich der Stoppwortfilterung werden so im allgemeinen die häufigsten Wörter ausgeblendet, da diese je nach Kontextbreite - zueinander recht ähnliche Vektoren haben (etwa die Konjunktionen "und"/"oder"). Das Prinzip ist vergleichbar zu der oben genannten Beschreibung von Wortformen durch binäre Vektoren: Während man dort nur die Elemente, die nicht Null sind, für die Beschreibung verwendet, sind es beim LSI nur diejenigen, die eine besondere Aussagekraft haben. Eine ausführlichere Beschreibung zu LSI findet sich bei Deerwester et al. (1990), sowie bei Manning/Schütze (1999 : ). 5.3 Bewertung von LSI Der Hauptkritikpunkt ist der große Speicherplatzbedarf sowie die hohe Komplexität des Verfahrens. Allerdings gibt es die Möglichkeit, neue Dokument- bzw. Termvektoren einzubinden, ebenso kann aufgrund einer Teilanalyse der restliche Korpus bewertet werden. Man muss also nicht für jeden Fall eine neue Berechnung durchführen. Eine weitere Bedingung für ein erfolgreiches Anwenden von LSI ist die Beschaffenheit des verwendeten Korpus. Bei Sammlungen mit stark heterogenem Vokabular werden sehr gute Werte erzielt, da die thematische Verwandtschaft auch bei offensichtlich verschiedenem Vokabular erkannt werden kann. Entsprechend weniger sinnvoll ist es bei Sammlungen mit sehr homogenem Vokabular (Fachdatenbanken, Sammlungen von Abstracts u.ä.). Allgemein gilt: Je größer die analysierten Datenmengen sind, desto höher wird die Genauigkeit der Ergebnisse, da mit zunehmender Menge die Sonderfälle (i.e. abweichenden Verwendungen) weniger ins Gewicht fallen. 6. Probleme, Ansatzpunkte, etc.
10 Auch wenn das VSM vielversprechend hinsichtlich der Erschließung von Wortbedeutungen ist, kann es viele Schwierigkeiten sprachlicher Daten nicht lösen. So bliebt die Ambiguität grundsätzlich erhalten: Semantische Ähnlichkeit ist immer Ähnlichkeit einer Lesart zu einer anderen, das Wort "Bank" ist gleichsam ähnlich zu "Sparkasse" wie zu "Parkbank". Da die Vektoren je Wortform erstellt werden, gibt es nur einen Vektor für "Bank" - das wiederum bringt mit sich, dass im VSM auch "Sparkasse" und "Parkbank" ähnlich sind. Das Beispiel ist trivial, weist jedoch auf das eigentliche Problem hin: In verschiedener Verwendung erfahren sprachliche Ausdrücke zum Teil erhebliche Bedeutungsveränderungen diese dürfen nicht in einer einzigen Repräsentation (und somit einer einzelnen Wortbedeutung) untergehen. Gesucht ist ein Weg, einzelne Lesarten zu kodieren, anstatt die Gesamtheit der möglichen Bedeutungen einer Wortform in einem Vektor zusammenzufassen (so dass er zu allen Lesarten ähnlich ist...) Weitere Überlegungen könnten sich demnach auch auf einmalige Vektorerstellung richten, etwa anstelle eines 'Kontextdurchschnitts' die Verwendung des jeweils konkreten Kontextes eines Auftretens, um anschließend diese Vektoren untereinander zu Vergleichen, um z.b. thematische Unterschiede innerhalb der jeweiligen Kontexte zu erkennen. 7. Literatur Bartell, Brian T. and Belew, Richard K. and Cottrell, Garrison W.: Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling. Deerwester, Scott and Dumais, Susan T. and Furnas, George W. and Landauer, Thomas K. and Harshman, Richard (1990): Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science Vol. 41 No. 6 S Kaski, S., Honkela, T., Lagus, K. & Kohonen, T. (1998): WEBSOM Self-organizing maps of document collections. Neurocomputing 21; S Kaski, Samuel (1998): Dimensionality Reduction by Random Mapping: Fast Similarity Computation for Clustering. In: Proceedings of IJCNN'98, International Joint Conference on Neural Networks, Vol. 1, S Kohonen, Teuvo (1989): Self-Organizization and associative memory. Berlin, Heidelberg, New York: Springer. - (1995): Self-Organizing Maps. Berlin, Heidelberg, New York: Springer. - (1998): The self-organizing map. Neurocomputing 21; S Manning, Christopher D. and Schütze, Hinrich (1999): Foundations of statistical natural language processing. MIT Press 1999.
Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrSemantisches Gedächtnis HAL-Modell Experimente Fazit Literatur HAL. Hyperspace Analogue to Language. Mandy Neumann. 30. April 2012
HAL Hyperspace Analogue to Language Mandy Neumann 30. April 2012 Inhalt Semantisches Gedächtnis HAL-Modell Experimente Fazit Gedächtnisstruktur Prozedurales (implizites) Gedächtnis Gedächtnisstruktur Prozedurales
MehrText-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
MehrTexttechnologien: Latent Semantic Indexing
Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen
MehrAnwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke
Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse
Mehr9. Vorlesung Lineare Algebra, SVD und LSI
9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrMidas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
MehrVisualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher
Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrNichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität
Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
MehrKapitel 2. Mittelwerte
Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren
MehrEinführung in die medizinische Bildverarbeitung WS 12/13
Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrInformation-Retrieval: Vektorraum-Modell
Information-Retrieval: Vektorraum-Modell Claes Neuefeind Fabian Steeg 03. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrAnalysis of Crash Simulation Data using Spectral Embedding with Histogram Distances
Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances Luisa Schwartz Universität Bonn Institut für Numerische Simulation Fraunhofer SCAI 25. September 2014 Luisa Schwartz
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrKL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie
KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrDependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/
Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur
MehrDer Alpha-Beta-Algorithmus
Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrProduktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien
Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.
MehrDynamisches Huffman-Verfahren
Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrÜbungen mit dem Applet Zentraler Grenzwertsatz
Zentraler Grenzwertsatz 1 Übungen mit dem Applet Zentraler Grenzwertsatz 1 Statistischer Hintergrund... 1.1 Zentraler Grenzwertsatz... 1. Beispiel Würfeln... 1.3 Wahrscheinlichkeit und relative Häufigkeit...3
Mehr16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87
16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau
MehrLineares Gleichungssystem - Vertiefung
Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus
MehrTeil 111. Chart-Parsing
Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),
MehrTOPSIS. Eine Technik der Effizienzanalyse
TOPSIS Eine Technik der Effizienzanalyse 1 Literatur Peters, Malte L. und Zelewski, Stephan: TOPSIS als Technik zur Effizienzanalyse. Wirtschaftsstudium, Heft 1, 2007, S. 9-15 http://www.pim.uni-due.de/fileadmin/publikationen/topsis_zur_effizienzanalyse.pdf
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
MehrLage- und Streuungsparameter
Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrBedeutung als Vektor? Überlegungen zur Distributionellen Semantik
Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik Christine Engelmann Germanistische Sprachwissenschaft (Friedrich-Schiller-Universität Jena) 18.01.2013 Forschungsbereich innerhalb der
MehrLösungen Serie 6 (Vektorräume, Skalarprodukt)
Fachhochschule Nordwestschweiz (FHNW Hochschule für Technik Institut für Geistes- und Naturwissenschaft Lösungen Serie 6 (Vektorräume, Skalarprodukt Dozent: Roger Burkhardt Klasse: Studiengang ST Büro:
MehrRecommender Systeme mit Collaborative Filtering
Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem
Mehr37 Gauß-Algorithmus und lineare Gleichungssysteme
37 Gauß-Algorithmus und lineare Gleichungssysteme 37 Motivation Lineare Gleichungssysteme treten in einer Vielzahl von Anwendungen auf und müssen gelöst werden In Abschnitt 355 haben wir gesehen, dass
MehrNennung der 1. These: Thema ist ein bereits bekanntes Element, das aus dem Kontext erschließbar ist
Aufgabenstellung zum Thema: Thema und Rhema, Text aus: Lutz, Luise (1981): Zum Thema: Thema. Einführung in die Thema-Rhema-Theorie. Hamburg (= Hamburger Arbeiten zur Linguistik und Texttheorie 1) Bitte
MehrKorrespondenzanalyse
Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung
Mehr2 Darstellung von Zahlen und Zeichen
2.1 Analoge und digitale Darstellung von Werten 79 2 Darstellung von Zahlen und Zeichen Computer- bzw. Prozessorsysteme führen Transformationen durch, die Eingaben X auf Ausgaben Y abbilden, d.h. Y = f
MehrDas Phänomen der Cross-Polaren Anomalie bei Dimensionsadjektiven aus der Sicht von Bierwisch und Kennedy
Sprachen Sebastian Arndt Das Phänomen der Cross-Polaren Anomalie bei Dimensionsadjektiven aus der Sicht von Bierwisch und Kennedy Einleitung Die vorliegende Arbeitbefasst sich mit dem Thema der graduierbaren
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
MehrPrincipal Component Analysis (PCA)
Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrTheoretische Informatik 1
Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs
MehrKohonennetze für Information Retrieval mit User Feedback
Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg 06.02.2003 Zusammenfassung Richtig eingesetzt, sind selbstorganisierende Karten (SOM) ein probates
Mehr, v 3 = und v 4 =, v 2 = V 1 = { c v 1 c R }.
154 e Gegeben sind die Vektoren v 1 = ( 10 1, v = ( 10 1. Sei V 1 = v 1 der von v 1 aufgespannte Vektorraum in R 3. 1 Dann besteht V 1 aus allen Vielfachen von v 1, V 1 = { c v 1 c R }. ( 0 ( 01, v 3 =
MehrNutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrData Cubes PG Wissensmangement Seminarphase
PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit
MehrMathematik für Naturwissenschaftler II SS 2010
Mathematik für Naturwissenschaftler II SS 2010 Lektion 13 10. Juni 2010 Kapitel 10. Lineare Gleichungssysteme In diesem Abschnitt untersuchen wir, welche Struktur die Gesamtheit aller Lösungen eines linearen
MehrLösungen Serie 6 (Vektorräume, Skalarprodukt)
Name: Seite: 1 Fachhochschule Nordwestschweiz (FHNW) Hochschule für Technik Lösungen Serie 6 (Vektorräume, Skalarprodukt) Dozent: R. Burkhardt Büro: 4.613 Klasse: 1. Studienjahr Semester: 1 Datum: HS 28/9
MehrMathematik II Frühjahrssemester 2013
Mathematik II Frühjahrssemester 213 Prof. Dr. Erich Walter Farkas Kapitel 7: Lineare Algebra Kapitel 7.5: Eigenwerte und Eigenvektoren einer quadratischen Matrix Prof. Dr. Erich Walter Farkas Mathematik
MehrDer Kern einer Matrix
Die elementaren Zeilenoperationen p. 1 Der Kern einer Matrix Multipliziert man eine Matrix mit den Spaltenvektoren s 1,..., s m von rechts mit einem Spaltenvektor v := (λ 1,..., λ m ) T, dann ist das Ergebnis
MehrClusteranalyse von Nachrichtenartikeln
Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln
MehrEuklidische Distanzmatrizen. Andrei Grecu
Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer
Mehr9. Kombination von Vektor- und Rasterdaten
9. Kombination von Vektor- und Rasterdaten 1. Vergleich von Vektor- und Rasterdaten 2. Morphologische Operationen 3. Transformationen des Formats 4. Kombinierte Auswertungen Geo-Informationssysteme 224
MehrA2.3 Lineare Gleichungssysteme
A2.3 Lineare Gleichungssysteme Schnittpunkte von Graphen Bereits weiter oben wurden die Schnittpunkte von Funktionsgraphen mit den Koordinatenachsen besprochen. Wenn sich zwei Geraden schneiden, dann müssen
MehrKapitel 16. Invertierbare Matrizen
Kapitel 16. Invertierbare Matrizen Die drei Schritte des Gauß-Algorithmus Bringe erweiterte Matrix [A b] des Gleichungssystems A x auf Zeilenstufenform [A b ]. Das System A x = b ist genau dann lösbar,
Mehr5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank
Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.
Mehr6. Faktorenanalyse (FA) von Tests
6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...
MehrPrincipal Component Analysis (PCA) (aka Hauptkomponentenanalyse)
Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Seminar für Statistik Markus Kalisch 25.11.2014 1 Unsupervised Learning Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen
MehrUniversität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker
UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften
MehrSeminar Datenbanksysteme
Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System
MehrÜberblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:
MehrProgrammierkurs Python II
Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval
MehrInformation-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrP (X = 2) = 1/36, P (X = 3) = 2/36,...
2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel
Mehr10.2 Linearkombinationen
147 Vektorräume in R 3 Die Vektorräume in R 3 sind { } Geraden durch den Ursprung Ebenen durch den Ursprung R 3 Analog zu reellen Vektorräumen kann man komplexe Vektorräume definieren. In der Definition
MehrKurs über Lineare Gleichungssysteme. PD Dr. Karin Halupczok
Kurs über Lineare Gleichungssysteme PD Dr. Karin Halupczok Mathematisches Institut Albert-Ludwigs-Universität Freiburg http://home.mathematik.unifreiburg.de/halupczok/diverses.html karin.halupczok@math.uni-freiburg.de
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrKurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl
Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die
MehrHow dynamic are IP Addresses?
Paper How dynamic are IP Addresses? Y. Xie, F. Yu, K. Achan, E. Gillum, M. Goldszmidt, T. Wobber Network Architectures: Internet Routing WS 2007/08 Benjamin Vahl SE Internet Routing WS2007/08 1 Einführung
MehrSprache systematisch verbessern. Eugen Okon
Sprache systematisch verbessern Eugen Okon Sprache systematisch verbessern Gliederung Einleitung Die CLEAR Methode CLEAR in einer Fallstudie Ergebnisse und Bewertung Zusammenfassung Sprache systematisch
MehrThemen für Beiträge Seminar Selbstorganisation und Emergenz im Sommersemester 2009 Arbeitsgruppe Datenbionik Prof. Dr.
Themen für Beiträge Seminar Selbstorganisation und Emergenz im Sommersemester 2009 Arbeitsgruppe Datenbionik Prof. Dr. Alfred Ultsch Don t panic! Die Vorträge dürfen auf Deutsch oder Englisch gehalten
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv
MehrKapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin
Kapitel 1 Einleitung 1.1. Begriff des Algorithmus Eine der ältesten Beschreibungstechniken für Abläufe: Benannt nach dem Mathematiker Al-Khwarizmi (ca. 780...840), der am Hof der Kalifen von Bagdad wirkte.
Mehrf h c 7 a 1 b 1 g 2 2 d
) Man bestimme mit Hilfe des Dijkstra-Algorithmus einen kürzesten Weg von a nach h: c 7 a b f 5 h 3 4 5 i e 6 g 2 2 d Beim Dijkstra-Algorithmus wird in jedem Schritt von den noch unmarkierten Knoten jener
Mehr3 Lineare Algebra (Teil 1): Lineare Unabhängigkeit
3 Lineare Algebra (Teil : Lineare Unabhängigkeit 3. Der Vektorraum R n Die Menge R n aller n-dimensionalen Spalten a reeller Zahlen a,..., a n R bildet bezüglich der Addition a b a + b a + b. +. :=. (53
MehrAlgorithmen und Formale Sprachen
Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und
MehrGrundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt
Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum
Mehr