Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation

Größe: px
Ab Seite anzeigen:

Download "Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation"

Transkript

1 Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling Wintersemester 2002/2003 Semantische Annotation Lesarten annotieren (sense tagging) ein bisschen was zu Lesarten und lexikalischer Semantik Techniken der Lesartenannotation Probleme automatische Anaphernauflösung Lesartenannotation jedes Token (manchmal auch: jedes Token, das zu einer offenen Wortklasse gehört / jedes Nomen / Nomen einer bestimmten Klasse etc.) wird mit einem Tag versehen, das seine Lesart (sense) in dem verwendeten Kontext angibt Lesartenannotation - Beispiel "Bei uns kann jeder anfangen/beginnen, ob ehemaliger Turniertänzer oder blutiger Anfänger", sagt Heinz Rieger. Wichtig sei allein die Freude an der Bewegung/KÖRPERL_AKTIVITÄT zur Musik. Wer überhaupt außerhalb der Region kann mit dem Begriff Rhein-Neckar-Raum etwas anfangen/kennen, weiß ihn geographisch einzuordnen, hat eine Vorstellung, was hier an Unternehmen und Wirtschaftskraft sitzt? Lesartenannotation - Beispiel Der Kämpfer um die reine Lehre Buddhas wurde mit seinen Anhängern mehrfach verfolgt, die Tempel der Bewegung/GEMEINSCHAFT angezündet (einige davon wurden später wiederaufgebaut) (Beispiele aus Mannheimer Morgen, COSMAS) Wozu Lesartenannotation? lexikographische Zwecke quantitative Studien zur Verteilung bestimmter Lesarten in bestimmten Textsorten computerlinguistische Anwendungen maschinelle Übersetzung information retrieval Frage-Antwort-Systeme...

2 Lesarten (senses)! hier nur ganz grober Überblick Genaueres in den Seminaren von Prof. Lang und Prof. Krifka! Wieviele Lesarten hat ein Lemma? (Wie hängen die Lesarten zusammen?) Wie kann man die Lesarten (automatisch) unterscheiden? Lesarten mehrere Wörter mit der gleichen Bedeutung Synonymie Samstag, Sonnabend Substitutierbarkeit in einem Kontext/einer Menge von Kontexten abkratzen, sterben, heimgehen, ins Gras beissen, das zeitliche segnen,... wahre Synonymie ist selten! Lesarten ein Wort in mehreren Bedeutungen Homonymie (Bank) Homographie (Tenor) Homophonie (Lerche, Lärche) Polysemie... Lesarten Polysemie (verstehen, Fisch, blau) systematische Polysemie Fisch, Huhn, Schwein etc. Tier und Lebensmittel Oper, Theater, Schule etc. Gebäude und Institution und Gruppe von Menschen... (Bierwisch 1982) Kontextabhängigkeit (teuer, klein, gut) Vagheit Methoden zur Unterscheidung von Lesarten Etymologie (?) im Wörterbuch nachschauen (?) Beispiel: belegen, Kiefer Schlüsselwörter im Kontext syntaktisches Verhalten: Argumentstruktur, Modifikation, Definitheit,... Zeugma Dornröschen belegt ein Brötchen und einen Kurs in Korpuslinguistik Lesarten Übergang zu Kollokationen, Idiomen,... fließend wie groß muss ein Bedeutungseintrag sein? <etw. mit etw. anfangen können> <blutiger Anfänger> <in Bewegung setzen>

3 Wortartenannotation sense tagging, word sense disambiguation setzt voraus, dass wir jedem Lemma eine bestimmte Menge an Lesarten zuordnen können (tun wir jetzt mal so, als sei das problemlos möglich) zwei Möglichkeiten Disambiguierung aufgrund von Selektionsrestriktionen (maschinelle Lernverfahren) Wortartenannotation man hat zwei Arten von Wissen zur Verfügung linguistisches Wissen: morphologisches/morphosyntaktisches Wissen, Kontext zusätzliches (extralinguistisches) Wissen: Wissen über Domäne, Textsorte etc. Beispiel: Kiefer Lexikoneinträge <Kiefer1 - Körperteil> <Kiefer2 - Baum, Holz> vernetzte Disambiguierung Annahmen: alle Wörter in einem Satz bis auf eins sind desambiguiert man hat ein Lexikon mit sehr genauen Selektionsrestriktionen für selegierende Wörter man hat eine zum Lexikon passende Taxonomie (oder anderes Kategoriensystem) für lexikalische Einträge vernetzte Disambiguierung die anderen Wörter helfen, die Lesart des letzten festzulegen zusätzliche Lexikoneinträge für Verben <operieren an KÖRPERTEIL> <sägen HOLZ> <wachsen BELEBTES_OBJEKT>... plus Taxonomie BAUM ISA PFLANZE ISA BELEBTES_OBJEKT... vernetzte Desambiguierung Thomas Zampach wurde am Kiefer operiert und Thorsten Kracht hatte einen Muskelfaserriss in der Wade Kiefer lässt sich mit allen Werkzeugen leicht bearbeiten, sie lässt sich gut sägen, hobeln, fräsen und bohren, man kann sie messern, schälen und drechseln.

4 vernetzte Desambiguierung Problem: was ist mit weniger spezifischen Verben? mögen, kaufen, sehen,... Erstellung eines Lexikon und einer Konzepthierarchie (Taxonomie) aufwendig und schwierig meist nur für eine Domäne/ein Szenario aufbereitet und schlecht übertragbar WordNet/GermaNet zugrundeliegende Idee: jede Lesart hat ein typisches Verhalten (kommt in bestimmten morphosyntaktischen Formen vor, es gibt bestimmte andere Wörter im Kontext etc.) solch ein typisches Verhalten kann durch eine Vektordarstellung approximiert werden dann kann man jede Lesart an einem/einer Menge für sie typischen Vektor erkennen man erzeugt für jedes zu taggende Wort einen Merkmalsvektor mit zb Wortart Lemma Kontext (in einer festgelegten Größe), auch mit Wortart & Lemmainformation (seltener) syntaktische Strukturbeschreibung (Teilparse) wobei Kontext: collocation und co-occurrence collocation: Information über Wörter, die an einer bestimmten Position relativ zum zu bestimmenden Wort stehen syntagmatische Relationen: Wörter, die in einer bestimmten syntaktischen Relation zu dem zu bestimmenden Wort stehen co-occurrence (bag of words): Wörter, die irgendwo innerhalb eines bestimmten Kontextfensters mit dem zu bestimmenden Wort vorkommen If one examines the words in a book, one at a time as through an opaque mask with a hole in it one word wide, then it is obviously impossible to determine, one at a time, the meaning of the words [...] But if one lengthens the slit in the opaque mask, until one can see not only the central word in question but also say N words on either side, then if N is large enough one can unambiguously decide the meaning of the central word. [...] The practical question is: What minimum value of N will, at least in a tolerable fraction of cases, lead to the correct choice of meaning for the central word? Weaver (1949), zitiert nach Ide & Veronis (1998) collocation: Verkauf/NN von/prep nordischen/adja Hölzern/NN, speziell/adv Fichte/NN, Kiefer/NN und/konj Lärche/NN Welche Information? Kiefer folgt auf Fichte, und Lärche direkt nach Kiefer Wortartreihenfolge

5 kann in gewissen Grenzen einfache Strukturbeschreibungen ersetzen typische Modifikationen typische Verbargumente findet typische morphologische Varianten keep: mit Gerundium: he kept eating mit Adjektiv: he kept calm mit NP: he kept a record Wörter, die inem bestimmten syntagmatischen Zusammenhang mit dem zu bestimmenden Wort stehen Voraussetzung: geparstes Korpus (wenigstens Chunks) co-occurrence Holz, Fichte, Lärche etc. kommen oft in der Nähe von Kiefer2 vor hier werden Kontextfenster einer vorgegebenen Größe ausgewertet nordischen Hölzern, speziell Kiefer, Fichte und Lärche Beispiel: Kontextwörter zu Kiefer1: Zahnarzt, Operation, Gesicht, Körper Kiefer2: Lärche, Fichte, Wald, wachsen, Holz, billig, IKEA woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe Informationen aus Wörterbüchern

6 Informationen aus Wörterbüchern/Thesauri geht zurück auf Lesk (1986): Die Wörter, die in den Definitionen im Wörterbuch verwendet werden, werden auf die jeweiligen Kontexte abgebildet man nimmt die Lesart, die die meisten Übereinstimmungen mit dem gegebenen Kontext hat % korrekt annotierte Lesarten spätere Verfahren mit neuronalen Netzen auf OALD & CED erreichen über 90% korrekt annotierte Lesarten (Veronis & Ide 1990) Problem: abhängig von der genauen Formulierung im verwendeten Wörterbuch Wörterbücher sind oft inkonsistent Wörterbücher enthalten keine/wenig Kontextinformation oder pragmatische Information daher: woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe Informationen aus Wörterbüchern statistische Lernverfahren auf einem Trainingskorpus (manuell annotiert) auf einem (handannotierten) Trainingskorpus werden mit dem Zielwort vorkommende Wörter gezählt Gewichtung (stop words?) : Vektordarstellung Vektorrepräsentation morphosyntaktische Eigenschaften: <Genus, Numerus>, zb 0 für masc, 1 für fem, 0 für sing, 1 für plural Vektorrepräsentation Kontext: <pos-1:am, pos+1:operieren, Zahnarzt, Operation, Gesicht, Körper, Lärche, Fichte, Wald, wachsen, Holz, billig, IKEA> dann für jeden Kontext Zuordnung zu einer Lesart z. B. <0,0,0,0,0,0,0,0,1,1,0,0,1,0,0> - Kiefer2 wenn man die Vektoren hat, kann die Lesarten anhand ähnlicher Kontexte klassifizieren woher kennt man die entsprechenden Kontexte? was heißt in diesem Zusammenhang ähnlich? das Ähnlichkeitsmaß ist mathematisch definiert überwachtes Lernen: Kontexte werden aufgrund eines manuellen Trainingskorpus gelernt unüberwachtes Lernen: Kontexte werden zu ähnlichen Clustern zusammengefügt

7 Schwierigkeiten Bestimmung der Lesarten Ermittlung der Merkmalsvektoren scaling up : Übertragung auf weitere Kontexte Entscheidungsbaumverfahren manche Informationen sind aussagekräftiger als andere (wenn man das Genus von Kiefer eindeutig bestimmen kann, braucht man den Kontext nicht mehr) daher kann man ein Entscheidungsbaumverfahren lernen: Entscheidungsbäume sind eine Folge von ja/nein Entscheidungen mit Konsequenzen (Genus eindeutig bestimmt? Wenn ja, dann Kiefer1 oder Kiefer2, sonst schau den Kontext an...) Probleme handannotiertes Korpus ist schwer zu bekommen/herzustellen sparse data problem : für einige Lesarten gibt es zu wenig Trainingsdaten (in einigen Texttypen/Genres kommen bestimmte Lesarten überhaupt nicht vor) Qualität: bisher kommt man nicht an die 95%+ heran, die zb beim Wortartentagging erreicht werden Existierende Systeme und Evaluation SEMCOR Corpus: Wörter des Brown Corpus mit WordNet Lesarten, handgetaggt SENSEVAL Corpus diverse kleinere Korpora Existierende Systeme und Evaluation Evaluationskriterien Menge der Lesarten (Differenzierung), Allgemeinheit, Übertragbarkeit auf andere Domänen Was zählt als korrekt? (bei hierarchischen Wörterbucheinträgen: nur unterste Ebene oder auch höhere Ebenen) bei kombinierten Verfahren: wieviel muss manuell korrigiert werden? bei rein automatischen Verfahren: Geschwindigkeit (bei bestimmten Aufgaben wie zb bei zeitgleicher maschineller Übersetzung wichtig) Existierende Systeme und Evaluation SENSEVAL-Konferenzen: ein bestimmer Text wird nach vorgegebenen Kriterien mit Lesarten annotiert Vergleich zwischen verschiedenen Systemen Diskussion über Schwierigkeiten und Verfahren ca. 2-jährig (nächste: Sommer 2003,

8 Standards Was ist der Standard? Was ist eigentlich ein korrekt mit Lesarten annotiertes Korpus? Soll man eigentlich automatisch Lesarten zuweisen? Können Menschan das nicht viel besser? dazu: 2 Experimente und ein Vorschlag von Jean Veronis (2001) Véronis Ziele herausfinden, wie gut Menschen eigentlich Lesarten disambiguieren können Konsequenzen für maschinelles Disambiguieren diskutieren einen rein strukturellen Vorschlag zur Lesartendisambiguierung unterbreiten Experiment 1 Experiment 1 Material: je 200 Adjektive, Nomen und Verben, die jeweils ca. 60 Mal im JOC Korpus (französisch) vorkommen: für jedes dieser Wörter alle Vorkommen mit Kontext ausgedruckt 6 TeilnehmerInnen (Studierende ohne lexikographische Ausbildung) Frage: hat dieses Wort in den folgenden Kontexten mehrere Bedeutungen? (eine Option: weiss nicht) keine Zeitbeschränkung nur ca. 4 % weiss-nicht-antworten (dh, die Versuchspersonen fanden die Aufgabe nicht schwierig) 73 % der Wörter werden als eindeutig angesehen Polysemie unterscheidet sich deutlich je nach Wortart N > V > Adj (i. Ggs. zu Petit Larousse V > N > A) volle Übereinstimmung nur bei 4,5 % der polysemen Wörter Experiment 2 Experiment 2 Material: die 60 polysemsten (20 pro Wortart) der Wörter aus Experiment 1 mit allen ihren Belegen Aufgabe: Lesartenzuweisung nach Petit Larousse für alle Belege man konnte mehr als eine Lesart pro Kontext zuweisen zusätzliche Lesart als?, werden alle als eine gezählt TeilnehmerInnen: 6 (andere) Studierende ohne lexikographische Ausbildung Ergebnisse: Polysemie nach Wortart: V > N > A vielleicht zurückzuführen auf Wörterbuch ganz wenig Übereinstimmung zwischen den Annotatoren (zt schlechter als Zufall) (Hypothese, dass das auf zu feine Wortartunterscheidung im PL zurückzuführen ist, muss verworfen werden, Übereinstimmung schon auf der höchsten Ebene nicht gegeben)

9 Zusammenfassung Ergebnisse Experiment 1: keine Übereinstimmung bei der Einschätzung, ob ein gegebenes Wort in einem gegebenen Kontext polysem ist oder nicht Experiment 2: keine Übereinstimmung bei Lesartenzuweisung nach Wörterbuch (Veronis meint, das läge nicht an dem verwendeten Wörterbuch) Lösungsvorschlag Unterscheidung nur noch nach syntaktischen/strukturellen Kriterien unterschiedliche Argumentstruktur unterschiedliche Modifikationsmöglichkeiten Ersetzung durch Hyporonyme/Hyponyme... Idee: menschliche und automatische Annotation möglich und vergleichbar Lösungsvorschlag Problem: Wörterbücher enthalten solche Kriterien nicht (systematisch) Würde das nicht auch wieder eine Menge Handarbeit voraussetzen (zb Klassifikation von passenden Adjektiven etc.)? Würde das nicht eine Theorie für zu unterscheidende Lesarten voraussetzen? Zusammenfassung sense tagging wichtig für alle möglichen computerlinguistischen und linguistischen Anwendungen problematisch Festlegung der Lesarten (automatische) Zuweisung der Lesarten viel Handarbeit/Ressourcen erforderlich Zusammenfassung Korpusaufbereitung kurze Wiederholung zur Kurzklausur nächste Woche: Woher bekommen LinguistInnen ihre Daten? Welche linguistischen Fragestellungen, können durch Korpusdaten bearbeitet werden? Welche nicht? Wie wird ein Korpus aufgebaut? Zusammenfassung Korpusaufbereitung Wie wird ein Korpus vorverarbeitet? Welche Probleme gibt es jeweils? Welche Entscheidungen müssen getroffen werden? Tokenisierung pos-tagging Lemmatisierung syntaktische Strukturzuweisung/Baumbanken Lesartentagging

10 Literatur Ide, Nancy & Véronis, Jean (1998) Introduction to the Special Issue on Word Sense Dismabiguation: The State of the Art. In: Computational Linguistics 24(1), 1-40 Jurafsky, Daniel & Martin, James H. (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, New Jersey Véronis, Jean (2001) Sense tagging: does it make sense? Paper presented at Corpus Linguistics 2001, Lancaster.

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Kookkurrenzanalyse Einführung

Kookkurrenzanalyse Einführung Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich

Mehr

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung. Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

QUALIA STRUKTUR NACH PUSTEJOVSKY

QUALIA STRUKTUR NACH PUSTEJOVSKY QUALIA STRUKTUR NACH PUSTEJOVSKY Angewandte Linguistische Datenverarbeitung Sprachliche Informationsverarbeitung Universität zu Köln Dozent: Prof. Dr. Jürgen Rolshoven Referentin: Corinna Asselborn 20.01.2014

Mehr

Phraseologie. Eine Einfuhrung am Beispiel des Deutschen ERICH SCHMIDT VERLAG. von Harald Burger. 2., überarbeitete Auflage

Phraseologie. Eine Einfuhrung am Beispiel des Deutschen ERICH SCHMIDT VERLAG. von Harald Burger. 2., überarbeitete Auflage Phraseologie Eine Einfuhrung am Beispiel des Deutschen von Harald Burger 2., überarbeitete Auflage ERICH SCHMIDT VERLAG Vorwort 9 1. Einführung und Grundbegriffe 11 1.1. Erste Beobachtungen und Grundbegriffe

Mehr

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/ Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Phraseologie. Eine Einführung am Beispiel des Deutschen. von Harald Burger ERICH SCHMIDT VERLAG. 3., neu bearbeitete Auflage

Phraseologie. Eine Einführung am Beispiel des Deutschen. von Harald Burger ERICH SCHMIDT VERLAG. 3., neu bearbeitete Auflage Phraseologie Eine Einführung am Beispiel des Deutschen von Harald Burger 3., neu bearbeitete Auflage ERICH SCHMIDT VERLAG Vorwort 9 1. Einführung und Grundbegriffe 11 1.1. Erste Beobachtungen und Grundbegriffe

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Das Kompositionalitätsprinzip

Das Kompositionalitätsprinzip Das Kompositionalitätsprinzip (Version 1.0) Seminar Kompositionalität, 2005 1 Das Kompositionalitätsprinzip (Version 1.0) Die Bedeutung eines komplexen Ausdrucks ist durch die Bedeutung seiner Teile bestimmt

Mehr

Phraseologie. Eine Einführung am Beispiel des Deutschen ERICH SCHMIDT VERLAG. von Harald Burger. 3., neu bearbeitete Auflage

Phraseologie. Eine Einführung am Beispiel des Deutschen ERICH SCHMIDT VERLAG. von Harald Burger. 3., neu bearbeitete Auflage Phraseologie Eine Einführung am Beispiel des Deutschen von Harald Burger 3., neu bearbeitete Auflage ERICH SCHMIDT VERLAG Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet

Mehr

Einführung in die Computerlinguistik. Semantik

Einführung in die Computerlinguistik. Semantik Einführung in die Computerlinguistik Semantik WS 2006/2007 Manfred Pinkal Einführung in die Computerlinguistik 2006/2007 M. Pinkal UdS 1 Semantik für Dialogverarbeitung U: Ist der Flug um 2 nach London

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines

Mehr

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils Isabel Fuhrmann, Alexander Geyken, Lothar Lemnitzer Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Wort in der Semantik: Synonymie und Homonymie

Wort in der Semantik: Synonymie und Homonymie Wort in der Semantik: Synonymie und Homonymie Referat von Torben Stock Seminar Ib Wort, Name, Begriff, Terminus Sommersemester 2006 Walther v.hahn Universität Hamburg, Institut für Germanistik I Gliederung

Mehr

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer HPSG Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer Gliederung Einleitung Kongruenz Allgemein Zwei Theorien der Kongruenz Probleme bei ableitungsbasierenden Kongruenztheorien Wie syntaktisch

Mehr

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Lexikalische Substitutionen Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Gliederung 1 Substitutionen: Arten und Eigenschaften 2 Entstehung

Mehr

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten Sabine Schulte im Walde Institut für Maschinelle Sprachverarbeitung Universität Stuttgart Heidelberg,

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von

Mehr

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Übersicht über die Tests

Übersicht über die Tests Übersicht über die Tests Lexikontest Einige Hersteller machen Angaben zum Lexikonumfang ihrer Systeme. Diese Angaben sind jedoch nicht zwischen den Systemen vergleichbar, da es keine standardisierte Zählweise

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort? Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen

Mehr

❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden.

❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden. 4 Singular und Plural ❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden. Tipp: Wenn dir keine Nomen einfallen,

Mehr

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.

Mehr

WDG Analyse und Transformation (WAT)

WDG Analyse und Transformation (WAT) WDG Analyse und Transformation (WAT) Studienprojekt von Ineta Sejane und Wiebke Wagner am Institut für Deutsche Sprache Mannheim WDG Das Wörterbuch zur deutschen Grammatik WDG enthält ca. 150 000 Lemmata.

Mehr

Das Sichtenkonzept im DWDS- Wortinformationssystem

Das Sichtenkonzept im DWDS- Wortinformationssystem Das Sichtenkonzept im DWDS- Wortinformationssystem Alexander Geyken, Edmund Pohl, Lothar Lemnitzer Berlin-Brandenburgische Akademie der Wissenschaften 6. Arbeitstreffen des Forschungsnetzwerks Internetlexikographie

Mehr

Einführung Computerlinguistik. Was ist ein Wort?

Einführung Computerlinguistik. Was ist ein Wort? Einführung Computerlinguistik Was ist ein Wort? Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-18 Schütze & Zangenfeind: Was ist ein Wort? 1

Mehr

Transition Network Parser

Transition Network Parser Transition Grammatik als endlicher Automat oder Übergangsnetzwerk. Jedes Netzwerk repräsentiert ein Nichtterminal. Kanten repräsentieren Terminale oder Nichtterminale. Pfad durch das Netzwerk korrespondiert

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

COSMAS II Corpus Search Management and Analysis System

COSMAS II Corpus Search Management and Analysis System COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die

Mehr

Präsentation vor dem Kolloquium Korpuslinguistik. Information Finding in Blogosphere: Domain Recognition and Genre Analysis

Präsentation vor dem Kolloquium Korpuslinguistik. Information Finding in Blogosphere: Domain Recognition and Genre Analysis Präsentation vor dem Kolloquium Korpuslinguistik Information Finding in Blogosphere: Domain Recognition and Genre Analysis 1.Einleitung Agenda 2.Theorie zu Blogs, Data Mining, Information Retrieval und

Mehr

Die Gratwanderung zwischen qualitativ hochwertigen und einfach zu erstellenden domänenspezifischen Textanalysen

Die Gratwanderung zwischen qualitativ hochwertigen und einfach zu erstellenden domänenspezifischen Textanalysen B. Mitschang et al. (Hrsg.): BTW 2017 Workshopband, Lecture Notes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2017 99 Die Gratwanderung zwischen qualitativ hochwertigen und einfach zu erstellenden

Mehr

Einführung in die maschinelle Sprachverarbeitung

Einführung in die maschinelle Sprachverarbeitung Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden

Mehr

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Do Word Meanings Exist? Patrick Hanks

Do Word Meanings Exist? Patrick Hanks Do Word Meanings Exist? Patrick Hanks Intro Zur Desambiguierung wurden Checklisten benutzt checklist theories: oberflächlich und irreführend wenn es Bedeutung gibt, dann nicht in Form einer Checkliste

Mehr

VL Morphologie Derivation 2. Anke Lüdeling Sommersemester 2008

VL Morphologie Derivation 2. Anke Lüdeling Sommersemester 2008 VL Morphologie Derivation 2 Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2008 produktiv aktiv stündlich, minütlich, zweimonatlich, täglich Basis: N, gibt Zeitraum an Ergebnis: jedes N produktiv

Mehr

Sichtbarmachung von Geo-Daten für eine Suchmaschine

Sichtbarmachung von Geo-Daten für eine Suchmaschine Sichtbarmachung von Geo-Daten für eine Suchmaschine Frauke Heinzle Monika Sester Institut für Kartographie und Geoinformatik (ikg) Universität Hannover Roter Faden EU-Projekt SPIRIT kurze Einleitung Pro

Mehr

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER 2011 1. Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging,

Mehr

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012 Wesentliche Methoden der Computerlinguistik Einführung in die Computerlinguistik Sommersemester 2012 Übersicht Morphologie: Lexikon, morphologische Analyse Syntax: PoS-Tagging, Unifikation, Chunking, Satzparser

Mehr

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8. Gliederung Natürlichsprachliche Systeme I D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 WS 2011/12, 26. Oktober 2011, c 2010-2012

Mehr

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt und Typen von Korpora Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt von Korpora Korpora können die verschiedensten Texte in den unterschiedlichsten Zusammensetzungen

Mehr

Universität Bamberg Angewandte Informatik. Seminar KI: gestern, heute, morgen. Natural Language Processing and Machine Learning

Universität Bamberg Angewandte Informatik. Seminar KI: gestern, heute, morgen. Natural Language Processing and Machine Learning Universität Bamberg Angewandte Informatik Seminar KI: gestern, heute, morgen Natural Language Processing and Machine Learning von Tatjana Schindler tatjana-maria.schindler@stud.uni-bamberg.de 25.02.2016

Mehr

Formalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen

Formalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen Formalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen Daniela Richter, Stephan Winter FAKULTÄT FÜR BAUINGENIEUR-, GEO- UND UMWELTWISSENSCHAFTEN DEPARTMENT OF INFRASTRUCTURE ENGINEERING

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Administration und Motivation Mathe III

Administration und Motivation Mathe III Administration und Motivation Mathe III Dr. Maria Staudte Universität des Saarlandes 16. Juni 2014 Maria Staudte (UdS) Motivation Mathe III 16. Juni 2014 1 / 20 Wichtige Informationen Finden Sie hier:

Mehr

time marker cluster term term URL Link to AEC media

time marker cluster term term URL Link to AEC media AEC ZKM ICC OK institution () time marker comming soon cluster defined in table or dynamic location () person or sentence (long description, notion, year) Default Linz AEC DB memory theater source (attribute)

Mehr

PS Lexikalische Semantik und Korpuslinguistik. Ein paar Grundlagen. Andrea Kowalski

PS Lexikalische Semantik und Korpuslinguistik. Ein paar Grundlagen. Andrea Kowalski Ein paar Grundlagen Andrea Kowalski Semantische Strukturen Strukturalistische Sichtweise: Sprache als Netzwerk systematischer Relationen zwischen sprachlichen Einheiten semantische Einheiten = Lexeme gehe,

Mehr

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007 POS Tagging Stefanie Dipper CL-Einführung, 2. Mai 2007 Überblick 1. Was ist POS-Tagging? 2. Geschichtlicher Überblick 3. ( Moderne Tagger) 1. Was ist POS-Tagging? POS (PoS) = part of speech: Wortart Tag:

Mehr

Grundlegendes zur Semantik 4. Januar 2005

Grundlegendes zur Semantik 4. Januar 2005 Linguistik Grundkurs Plenum Ruhr Universität Bochum Germanistisches Institut ********************************** Wolf Peter Klein Grundlegendes zur Semantik 4. Januar 2005 Wintersemester 04/05 Semantik

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Logische Beziehungen zwischen Lexemen

Logische Beziehungen zwischen Lexemen Logische Beziehungen zwischen Lexemen 1. logische Äquivalenz: Synonymie setzt voraus, dass die Bedingungen für die Wahrheitswerte der betreffenden Ausdrücke identisch sind!! Das erlaubt nicht den Umkehrschluß,

Mehr

12. LA- und PS-Hierarchien im Vergleich

12. LA- und PS-Hierarchien im Vergleich Kapitel 12: LA- und PS-Hierarchien im Vergleich 210 12 LA- und PS-Hierarchien im Vergleich 121 Sprachklassen der LA- und PS-Grammatik 1211 Komplexitätsklassen der LA- und PS-Hierarchie LA-Grammatik PS-Grammatik

Mehr

Manual zur Identifikation von Funktionsverbgefügen und figurativen Ausdrücken in PP-Verb-Listen

Manual zur Identifikation von Funktionsverbgefügen und figurativen Ausdrücken in PP-Verb-Listen Manual zur Identifikation von Funktionsverbgefügen und ativen Ausdrücken in PP-Verb-Listen Brigitte Krenn, OFAI, brigitte@oefai.at 17. Mai 2004 1 Kollokative versus nicht kollokative Wortkombinationen

Mehr

Automatisches Verstehen gesprochener Sprache

Automatisches Verstehen gesprochener Sprache Automatisches Verstehen gesprochener Sprache 5. Sprachverstehen und Morphologie Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität

Mehr

Wissensbasierte lexikalische Substitution

Wissensbasierte lexikalische Substitution IMS Bachelorarbeit Nr. 207 Wissensbasierte lexikalische Substitution Ilhan Tas Studiengang: Informatik Prüfer/in: Betreuer/in: Prof. Dr. Sebastian Padó Prof. Dr. Sebastian Padó Beginn am: 26. März 2015

Mehr

Digitale Bearbeitung der textuellen Daten

Digitale Bearbeitung der textuellen Daten Digitale Bearbeitung der textuellen Daten 1. Digitale Bearbeitung des Textes: vs.. Die sebenen: Satz / Text; Ebene; Ebene; Ebene; Ebene. Die Abbildung eines Satzes / Textes in die oben gegebenen Ebenen

Mehr

Claudia Neubert Norbert Rüffer Michaela Zeh-Hau. Neurolinguische Aphasietherapie. Materialien. Satzergänzung. NAT-Verlag

Claudia Neubert Norbert Rüffer Michaela Zeh-Hau. Neurolinguische Aphasietherapie. Materialien. Satzergänzung. NAT-Verlag Claudia Neubert Norbert Rüffer Michaela Zeh-Hau Neurolinguische Aphasietherapie Materialien Satzergänzung NAT-Verlag Claudia Neubert, Norbert Rüffer, Michaela Zeh-Hau Neurolinguistische Aphasietherapie

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Juristisches Übersetzen Spanisch - Deutsch: Immobilienkaufverträge

Juristisches Übersetzen Spanisch - Deutsch: Immobilienkaufverträge Ina Stengel-Hauptvogel * * Juristisches Übersetzen Spanisch - Deutsch: Immobilienkaufverträge Gunter Narr Verlag Tübingen INHALTSVERZEICHNIS I.Einleitung 1 1.1 Allgemeines 1 1.2 Korpus 2 2. Zielsetzung

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax

Mehr

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Tagging von Online-Blogs

Tagging von Online-Blogs Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt

Mehr

Lektion 3: Nominativ und Akkusativ (nominative and accusative cases)

Lektion 3: Nominativ und Akkusativ (nominative and accusative cases) Lektion 3: Nominativ und Akkusativ (nominative and accusative cases) Das Verb bestimmt, in welchem Fall das Substantiv steht. Manche Verben wollen nur den Nominativ, andere wollen zusätzlich den Akkusativ

Mehr

Klausur in zwei Wochen Einführung in die Morphologie Flexion

Klausur in zwei Wochen Einführung in die Morphologie Flexion Klausur in zwei Wochen Einführung in die Morphologie Flexion Anke Lüdeling Wintersemester 2002/2003 Bitte mailen Sie mir eventuelle Fragen und Punkte, die wir noch mal üben sollen bis Mittwoch 29.01.03,

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Morphologie I. Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie. Morphologie I 1

Morphologie I. Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie. Morphologie I 1 Morphologie I Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie Morphologie I 1 Lexikon & Wortschatz Der Umfang des deutschen Wortschatzes wird auf 300.000-400.000 Wörter geschätzt.

Mehr

Schulcurriculum Gymnasium Korntal-Münchingen

Schulcurriculum Gymnasium Korntal-Münchingen Klasse: 10 Seite 1 Minimalanforderungskatalog; Themen des Schuljahres gegliedert nach Arbeitsbereichen Übergreifende Themen, die dem Motto der jeweiligen Klassenstufe entsprechen und den Stoff des s vertiefen,

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Konzepte der AI: Maschinelles Lernen

Konzepte der AI: Maschinelles Lernen Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles

Mehr

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung

Mehr

Einführung in die Computerlinguistik: Semantik. Manfred Pinkal / Sebastian Pado

Einführung in die Computerlinguistik: Semantik. Manfred Pinkal / Sebastian Pado Einführung in die Computerlinguistik: Semantik Manfred Pinkal / Sebastian Pado Semantik Wann fängt heute die CL-Vorlesung an? Sie beginnt um 11. Einführung in die Computerlinguistik 2005/2006 M. Pinkal

Mehr

Musterlösung zur Abschlussklausur

Musterlösung zur Abschlussklausur Einführung in die Computerlinguistik Sommersemester 2012 Department Linguistik Peter Kolb 9.9.2012 Musterlösung zur Abschlussklausur 1. Aufgabe Ein Programm zum maschinellen Übersetzen verfügt über ein

Mehr

Grundlagen der LFG. (1) I danced a dance, I sneezed a sneeze, I laughed a laugh I stumbled a stumble, *I drowned a drown, *I floated a float

Grundlagen der LFG. (1) I danced a dance, I sneezed a sneeze, I laughed a laugh I stumbled a stumble, *I drowned a drown, *I floated a float Lösung 2 Grundlagen der LFG Einführung in die LFG Sommersemester 2010 Universität Konstanz Miriam Butt 1 Linking 1.1 Intransitive Verben Englisch Agentive Verbs: sneeze, swim, laugh, sleep Non-agentive

Mehr

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte. Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes

Mehr