Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006
|
|
- Etta Koenig
- vor 7 Jahren
- Abrufe
Transkript
1 Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006
2 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition eines deutschen Flexionslexikons für computerlinguistische Anwendungen
3 Motivation viele computerlinguistische Anwendungen brauchen eine Komponente zur Flexionsanalyse von Wortformen ( Deflexion ): Zuordnung einer Wortform zu einem Lexem (Lemmatisierung) Bestimmung von morpho-syntaktischen Eigenschaften
4 Motivation eine linguistisch adäquate Flexionsanalyse benötigt ein Lexikon (s.u.) die manuelle Erstellung eines Lexikons ist aber sehr aufwändig
5 Motivation selbst bestehende Flexionslexika stoßen auf unbekannte Wörter produktive Wortbildungen Vokabular einer Sprache ändert sich fachspezifisches Vokabular wünschenswert wäre daher eine möglichst automatische Lexikonerstellung und -erweiterung
6 Linguistische Grundbegriffe Wortform Lexem morpho-syntaktische Eigenschaften: Wortart, Numerus, Kasus, Person, etc. Flexionsparadigma Flexionsklasse Wortstamm Lemma
7 Flexionsanalyse gegeben: Wortform f Aufgabe: bestimme alle möglichen Analysen von Lemma + morphosyntaktische Eigenschaften Bsp: f = Träumen (Traum, N2), N, Dat, Pl (Träumen, N4), N, Nom, Sg (traum, VR3), V, Imp, Pl...
8 Lexikonlose Verfahren Geht eine linguistische Flexionsanalyse nicht doch ohne Lexikon? lexikonlose Verfahren üblich im Information Retrieval ( Stemming ) Rückführung von Wortformen in Dokumenten auf Stämme Ziel: mehr relevante Dokumente zu einer Suchanfrage finden
9 Lexikonlose Verfahren viele linguistisch relevanten Eigenschaften können aber nicht direkt von der Wortform abgeleitet werden z.b. Wortart: Träumen N (Akk Pl) Träumen V (Imp Pl)
10 Lexikonlose Verfahren z.b. Flexionssuffix vs. Bestandteil des Stamms: Lieder Nom Pl mit Stamm Lied Schläfer Nom Pl mit Stamm Schläfer z.b. Umlaut als Flexionsmarker vs. Bestandteil des Stamms: schläfst (2 Sg Präs) Stamm schlaf- vs. träumst (2 Sg Präs) Stamm träum-
11 Lexikonlose Verfahren gleiche Wortformen eines Lexems mit verschiedener morpho-syntaktischer Funktion (Synkretismus): Träume Nom Pl Gen Pl Akk Pl Schäfchen Nom Sg Dat Sg Akk Sg Nom Pl Gen Pl Dat Pl Akk Pl gleiche Formen zu versch. Lexemen: Plane Dat Sg von PLAN Dat Sg von PLANE
12 Lexikonlose Verfahren - Fazit lexikonlose Verfahren für deutsche Flexionsanalyse sind für linguistische Zwecke i.a. nicht geeignet
13 Mögliche Ansätze Wie entwickelt man ein computerlinguistisches Werzeug zur Flexionsanalyse? Extrem 1: vollständig manuelle Kodierung morphologischer Grammatiken und morphologischer Einheiten Extrem 2: vollständig automatische Induktion von Morphologie
14 Mögliche Ansätze Mittelweg: vergleichsweise einfach formulisierbare linguistische Generalisierungen nutzen, um reguläre Lexeme offener Wortklassen zu erschließen
15 1. Grundidee morphologische Paradigmen zur Erkennung von Wortformen eines Lexems nutzen d.h. verschiedene Wortformen eines regulär gebildeten Lexems erlauben es, auf dessen Wortstamm und die Flexionsklasse zu schließen
16 1. Grundidee Beispiel: in einem Textkorpus sind schlafe, schläfst, schlafend, geschlafen attestiert Hypothese: verschiedene Formen des Flexionsparadigmas zu einem hypothetischen Verbstamm schlaf- mit Flexionsklasse VR4
17 1. Grundidee diese Idee wurde schon mehrfach erprobt: Russisch (Oliver et al., 2003) Kroatisch (Oliver & Tadić, 2004) Französisch (Clément et al., 2004) Slovak (Sagot, 2005) deutsche Nomen (Perera & Witte, 2005)
18 2. Grundidee grammatischen Kontext nutzen, um morpho-syntaktische Eigenschaften zu erschließen Beispiel: attestierte Wortsequenz im Korpus: Der Traum möglicher Schluss: Traum ist ein Nomen
19 2. Grundidee morphosyntaktische Eigenschaften von Wortformen durch Rektions- und Kongruenzbedingungen erschließen Beispiel: attestierte Wortsequenz im Korpus: Der Traum möglicher Schluss: Traum ist Nom Sg Masc Gen Sg Fem Gen Pl Masc Gen Pl Fem Gen Pl Neu
20 2. Grundidee diese Idee wurde ebenfalls schon genutzt: zur Akquisition von inhärenten morphosyntaktischen Eigenschaften von Nomen für ein Lexikon des Italienischen (Zanchetta & Baroni, 2006) zur Bestimmung der Wortart bei dem französischen Lexikon von Clément et al. zur Bestimmung der Wortart und von morpho-synaktischen Eigenschaften bei der Lemmatisierung deutscher Nomen (Perera & Witte, 2005)
21 Benötigte Ressourcen i. Flexionsmodell für's Deutsche (Analyse und Generierung) ii. tokenisiertes Textkorpus iii. Liste geschlossener Wortklassen (Präpositionn, Konjunktionen, etc.) iv. lokale Grammatiken (z.b. Wortart- Vorhersage auf Trigram- oder Entscheidungsbaum-Basis)
22 Paradigmenbasierte Methode bilde für jeden Wortformtyp im Korpus eine Menge von regulären Lemma- Hypothesen (Lemma = Wortstamm + Flexionsklasse) Beispiel: Wortform schläfst hypothetische Wortstämme: schlaf, schläf, schlafs, schläfs
23 Paradigmenbasierte Methode bilde zu jeder Lemmahypothese das vollständige Flexionsparadigma und bestimme, welche Formen davon im Korpus attestiert sind
24 Paradigmenbasierte Methode Beispiel: in einem Textkorpus sind schlafe, schläfst, schlafend, geschlafen attestiert zur Hypothese mit Wortstamm schlaf: schlafe, schläfst, schläft,..., schlafend,... zur Hypothese mit Wortstamm schläf: schläfe, schläfst, schläft,..., schläfend,...
25 Ranking Verfahren von Clément et al (2004) und Sagot (2005) Lemmahypothesen nach Plausibilität ranken: Plausibilität eines Lemmas korreliert mit Anzahl der attestierten Wortformtypes eines Flexionsparadigmas außerdem mit den Wortformtoken des Flexionsparadigmas (selten attestierte Wortformtypes haben weniger Gewicht)
26 Ranking gerankte Hypothesenliste durch Muttersprachler validieren lassen (vgl. Clément et al, 2004; Sagot, 2005): Lemmahypothese ist korrekt Lemmahypothese ist falsch weil die Wortformen selbst fehlerhaft waren weil sie falsch geraten wurde Reiteration unter Berücksichtigung der neu gewonnen Informationen
27 Ranking experimentieren, wie gut die Ergebnisse werden, wenn man die ersten n Lemmahypothesen pauschal akzeptiert
28 Vielen Dank!
29 Literatur (1) Clément, Lionel; Sagot, Benoît & Lang, Bernhard Morphology based automatic acquisition of large-coverage lexica. In: Proceedings of the 4th International Conference of Language Resources and Evaluation (LREC 2004). Lisbon, Portugal. Oliver, Antoni; Castellón, Irene & Màrquez, Lluis Use of internet for augmenting coverage in a lexical acquisition system from raw corpora. In: Proceedings of the International Workshop on Information Extraction for Slavonic and Other Central and Eastern European Languages (IESL 2003). Borovets, Bulgaria. Held at the International Conference RANLP Oliver, Antoni & Tadić, Marko Enlarging the Croatian Morphological Lexicon by Automatic Lexical Acquisition from Raw Corpora. In: Proceedings of the 4th International Conference of Language Resources and Evaluation (LREC 2004), pp Lisbon, Portugal.
30 Literatur (2) Perera, Praharshana & Witte, René A Self-Learning Context- Aware Lemmatizer for German. In: Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP 2005), pp Vancouver, Canada. Sagot, Benoît Automatic acquisition of a Slovak Lexicon from a Raw Corpus. In: Matoušek, Václav; Mautner, Pavel & Pavelka, Tomáš (eds.) Text, Speech and Dialogue: 8th International Conference, TSD 2005, Karlovy Vary, Czech Republic, September 12-15, Proceedings., vol of Lecture Notes in Computer Science, pp Berlin / Heidelberg: Springer. Zanchetta, Eros & Baroni, Marco Morph-it! A free corpus-based morphological resource for the Italian language. In: Corpus Linguistics 2005, vol. 1 of Proceedings from the Corpus Linguistics Conference Series. Birmingham, UK.
Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind
Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:
MehrEinführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
MehrKASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26
Adjektiv-Schema Deutsche Nomen und Adjektive haben wesentlich mehr Paradigmen als unterschiedliche lexikalische Formen. Für die Endungsformen -en und -e ergeben sich 26 bzw. 11 Paradigmen. Eine Darstellung
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrProbeklausur Syntax-Übung MA Linguistik
Probeklausur Syntax-Übung MA Linguistik Prof. Dr. Stefan Müller Humboldt Universität Berlin St.Mueller@hu-berlin.de 12. Februar 2018 In diesem Dokument gibt es Fragen zu allem, was in der Veranstaltung
MehrModul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon
MehrVorlesung Morphologie Flexion
Vorlesung Morphologie 13.6. - Flexion Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2008 Vertretung: Hagen Hirschmann Flexion Inhalte heute Flexionskategorien & Paradigmata Nomen Adjektive
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Morphologie Wiederholung Aufgabe 1 Was ist Morphologie, Morphem? 3 Aufgabe 1 Was ist Morphologie, Morphem? Teildisziplin der
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrImplementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
MehrMinimalistische Morphologie
Minimalistische Morphologie minimalistisch: basiert auf wenigen Prinzipien befasst sich mit flektierten Wortformen und deren Rolle in der Syntax Basis-Annahmen 1. keine abstrakten Morpheme 2. maximale
MehrKlausur in zwei Wochen Einführung in die Morphologie Flexion
Klausur in zwei Wochen Einführung in die Morphologie Flexion Anke Lüdeling Wintersemester 2002/2003 Bitte mailen Sie mir eventuelle Fragen und Punkte, die wir noch mal üben sollen bis Mittwoch 29.01.03,
MehrVer-Verben. Verben. Welche Rolle spielen morphologische Eigenschaften der ver-verben im Spracherwerb?
Ver-Verben Verben Welche Rolle spielen morphologische Eigenschaften der ver-verben im Spracherwerb? Gliederung Theoretischer Hintergrund Hypothese und Vorhersage Variablen Methode Durchführung Material
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrEine Erweiterung der kontextfreien Grammatiken: PATR-II
Eine Erweiterung der kontextfreien Grammatiken: PATR-II Das ursprüngliche Problem war: Wie kann man strukturelle Information (Phrasenstruktur) von anderen grammatischen Informationen (wie Kongruenz, Rektion
MehrMaschinelle morphologische Analyse für das Deutsche. Ein Überblick. Exposé zur Studienarbeit
Maschinelle morphologische Analyse für das Deutsche. Ein Überblick. Exposé zur Studienarbeit Peter Adolphs, 1. Juli 2005 Zusammenfassung: Ziel meiner Studienarbeit ist es, einen Überblick über bestehende
MehrComputerlinguistik I
Computerlinguistik I Vorlesung im WS 2007/08 Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena Morphologie A writer
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrMorphologie: Was bisher geschah. Morphologie IV. Morphologie. Überblick. Derivation
Morphologie: Was bisher geschah Morphologie IV Derivation Gerrit Kentner Wortbegriff, Morphembegriff, Morphemklassifikation Derivation Komposition 18. Januar 2012 1 / 22 2 / 22 Morphologie Überblick heute:
MehrCOSMAS II Corpus Search Management and Analysis System
COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrErkennung und Visualisierung attribuierter Phrasen in Poetiken
Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung
MehrFinite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
MehrEinführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)
Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 8.12.2009 Wiebke Petersen Einführung CL (WiSe 09/10) 1 Morphologische Grundbegrie Wort / Lexem:
MehrEinführung in die Computerlinguistik. Morphologie I
Einführung in die Computerlinguistik Morphologie I Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 26.10.2015 Schütze & Zangenfeind: Morphologie I 1 /
MehrDas Flexionssystem des Deutschen: Allgemeines
Die Nominalflexion des Deutschen WS 2005/06 Das Flexionssystem des Deutschen 1 Das Flexionssystem des Deutschen: Allgemeines Das Deutsche als flektierende Sprache Nach der an morphologischen Kriterien
MehrFLP 1. Beispiele Vater, Mutter, Messer 2. Tag, Bach, Hand, Brot, Floß, Fluss 3. Leib, Wald, Kind, Haus 4. Lappen, Faden, Mädchen, Eltern 6
Flexionsmorphologie deutscher Substantive Ein flektiertes Substantiv besteht aus einer kanonischen Grundform und einer daran angehängten Endung. Grundformen mit gleichem Endungsverhalten (Flexionsparadigma)
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrTokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist
MehrHOW TO AVOID BURNING DUCKS
HOW TO AVOID BURNING DUCKS EIN KOMBINIERTER ANSATZ ZUR VERARBEITUNG VON KOMPOSITA IM DEUTSCHEN nach Fritzinger & Fraser STEFANIE VIETEN, ADVANCED STATISTICAL MACHINE TRANSLATION WS 2014/15 13.01.2015 GLIEDERUNG
MehrEinführung in unifikationsbasierte Grammatikformalismen
Universität Potsdam Institut für Linguistik Computerlinguistik Einführung in unifikationsbasierte Grammatikformalismen Thomas Hanneforth head: VP form: finite subj: pers: 3 num: pl Merkmalsstrukturen:
MehrEinführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)
Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrSyntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M
OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet
MehrEinführung in die Computerlinguistik: Morphologie und Automaten I
Einführung in die Computerlinguistik: Morphologie und Automaten I WS 2013/2014 Manfred Pinkal Morphologie Morphologie ist der Teilbereich der Linguistik, der sich mit der internen Struktur von Wörtern
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrPS Lexikologie. Quiz Einführung Terminologie. PS Lexikologie 1
Quiz Einführung Terminologie PS Lexikologie 1 Was ist ein Wort? Wieviele Wörter hat der folgende Satz? Katharina hat den Kühlschrank nicht zugemacht. PS Lexikologie 2 Kommt drauf an! Wir unterscheiden
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrHinweise zur flexionsmorphologischen Glossierung
Morphologie und Lexikon SS 2006 flexionsmorphologische Glossierung 1 Hinweise zur flexionsmorphologischen Glossierung Allgemeines Die flexionsmorphologische Glossierung steht als zweite Zeile unterhalb
MehrDELA Wörterbücher ===========================================================
DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrCentrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina
Morphologie Alla Shashkina Morphologie (= Formenlehre) untersucht systematische Beziehungen zwischen Wörtern und Wortformen Regeln, nach denen Wörter/Wortformen gebildet werden 2 Ziel in der Computerlinguistik
MehrKompositionalität & DSM
& DSM 7. Dezember 2011 Mitchell & Lapata (2008) I Evaluation verschiedener Kompositionsmodi: additiv gewichtet additiv (Kintsch, 2001) multiplikativ gemischt p = u + v Vektoraddition p = α u + β v Vektoraddition
MehrGrundkurs Linguistik - Morphologie
Grundkurs Linguistik - Jens Fleischhauer fleischhauer@phil.uni-duesseldorf.de Heinrich-Heine Universität Düsseldorf; Abteilung für Allgemeine Sprachwissenschaft 10.11.2016; WS 2016/2017 1 / 21 Jens Fleischhauer
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrUniversität Hamburg. Institut für Germanistik I Seminar 1b: Wort, Name, Begriff Seminarleiter: Prof. Dr. Walther v. Hahn
Universität Hamburg Institut für Germanistik I 07.137 Seminar 1b: Wort, Name, Begriff Seminarleiter: Prof. Dr. Walther v. Hahn Lexikographie 20.06.2006 Referentin: Yvette Richau Was ist Lexikographie?
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrMorphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle
Morphologische Merkmale Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Merkmale Das Wort 'Merkmal' ' bedeutet im Prinzip soviel wie 'Eigenschaft'
MehrLexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur
Workshop UKP Lab DIPF Knowledge Discovery 02. August 2012 Dr. Judith Eckle-Kohler Lexikalisch-semantische Ressourcen für die automatische Analyse von Erziehungswissenschaftlicher Fachliteratur In Teilen
MehrFlexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem
Grundkurs Germanistische Linguistik (Plenum) Judith Berman 23.11.04 vs. Wortbildung (1)a. [saft - ig] b. [[An - geb] - er] Derivationsmorphem vs. smorphem (4)a. Angeber - saftiger b. saftig - Safts c.
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrElektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
MehrAufbau eines Flexionslexikons für die Katalogbereinigung
Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de
MehrVerbalkongruenz im Lavukaleve
Kongruenz in Nicht-Fokussätzen Universität Leipzig Institut für Linguistik Seminar: Distributed Morphology 1. Dezember 2009 Verbalkongruenz Im Lavukaleve appliziert Verbalkongruenz in Nicht-Fokussätzen
MehrSemi-automatische Ontologieerstellung mittels TextToOnto
Semi-automatische Ontologieerstellung mittels TextToOnto Mark Hall SE Computational Linguistics 14. Juni 2004 Zusammenfassung Das Erstellen von Ontologien ist ein komplexer und langwieriger Prozess. Um
MehrAnalyse von literarischen Texten mit Methoden aus dem Bereich des Opinion Mining
Kooperative Promotion im Rahmen der TechnologieAllianzOberfranken (TAO) im Bereich Opinion Mining Analyse von literarischen Texten mit Methoden aus dem Bereich des Opinion Mining 1 Agenda Einleitung und
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
MehrKL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie
KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
MehrGrammatik und Lexikon für Branchen/Sektoren Loreta Bakiu. Hauptseminar: Informationsextraktion aus biographische Kontexten
Grammatik und Lexikon für Branchen/Sektoren Loreta Bakiu Hauptseminar: Informationsextraktion aus biographische Kontexten Dozenten: Prof. Dr. Franz Guenthner Michaela Geierhos Centrum für Informations-
MehrÜberblick. Hauptseminar: Einführung in die Korpuslinguistik. Wiederholung Produktivität. Wiederholung Produktivität. Fragen
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Überblick Wiederholung Produktivität Registervariation multidimensionale Analyse Register
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Finite State Transducers und Morphologie Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 18 Morphologische Grundbegriffe (1) Wort / Lexem: abstrakte
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrVon Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte
Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und
MehrBasistechnologie I Morphologische Analyse
Basistechnologie I Morphologische Analyse Sitzung vom 17. April 2002 Folker Caroli 1 Texthandling Analyse des Layouts des Textes Formatauszeichnungen Tags Analyse der Besonderheiten der Schrift ASCII HTML-Code
MehrLösungsvorschlag für das Übungsblatt 8. Aufgabe1.
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen
MehrDatenbankbasierte Verwaltung und Pflege morphologischer Information im IMSLex
Datenbankbasierte Verwaltung und Pflege morphologischer Information im IMSLex Wolfgang LEZIUS, Arne FITSCHEN, Ulrich HEID 1. Einführung Am Institut für Maschinelle Sprachverarbeitung in Stuttgart sind
MehrAufgaben aus Kegli 2 (Korpuslinguistik)
Aufgaben aus Kegli 2 (Korpuslinguistik) Kapitel 1 1. Überprüfen Sie mithilfe einer beliebigen Suchmaschine den Sprachgebrauch im Internet. Finden Sie die Formen wegen dem Regen bzw. wegen des Regens und
MehrComputerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Morphologie Wort Morphem Allomorph Sprachtypologie anhand
MehrOrganisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster
Organisatorisches: Poster Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 Erstellung eines wissenschaftlichen Posters in einer Gruppe (< 4 Personen)
MehrKorrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
MehrTopic Models als sinologisches Hilfsmittel: Möglichkeiten und Grenzen
Topic Models als sinologisches Hilfsmittel: Möglichkeiten und Grenzen Gesa Stupperich Universität Heidelberg, Asia and Europe in a Global Context 25. Januar 2018 Einführung Hierüber möchte ich sprechen
MehrPrädikat: summa cum laude
CURRICULUM VITAE Dr. Andreas Opitz Persönliches Geburtsdatum: 18. Mai 1975 Geburtsort: Erlabrunn (Deutschland) Nationalität: deutsch Familienstand: ledig Momentane Anstellung / Dienstadresse Universität
MehrQuestion Answering mit Support Vector Machines
Question Answering mit Support Vector Machines Sabrina Stehwien 30.01.2012 HS Information Retrieval Dozentin: Karin Haenelt Überblick 1. Question Answering Systeme 2. Das SAIQA-II QA-System 3. Support
MehrProgrammieren in natürlicher Sprache: Alice-Kontrollstrukturen
Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen Bachelorarbeit betreut von Mathias Landhäußer Ronny Hug 20. August 2014 IPD TICHY KIT Universität des Landes Baden-Württemberg und nationales
MehrMorphologie I. Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie. Morphologie I 1
Morphologie I Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie Morphologie I 1 Lexikon & Wortschatz Der Umfang des deutschen Wortschatzes wird auf 300.000-400.000 Wörter geschätzt.
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrSie gab das Buch ihrer Schwester.
Linguistische Kriterien für kontextfreie Grammatiken Zerlegung eines Satzes in Konstituenten gemäß Austausch-, Verschiebe- und Weglaßprobe Dies ist ein Beispiel. Beschreibungsmöglichkeiten: 1. S Pron V
MehrLinguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
MehrINFORMATIONSEXTRAKTION
INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.
MehrCURRICULUM VITAE. Dr. phil. Andreas Opitz. Studium / wissenschaftliche Ausbildung. Momentane Anstellung / Dienstadresse
CURRICULUM VITAE Dr. phil. Andreas Opitz Momentane Anstellung / Dienstadresse Universität Leipzig Institut für Linguistik Beethovenstr. 15 04107 Leipzig Tel.: +49 (0)341 97 37 605 E-Mail: andreas.opitz@uni-leipzig.de
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrMusterlösung zum 1. Aufgabenblatt Morphologie & Lexikographie WS06/07 S.Nagel
Musterlösung zum 1. Aufgabenblatt Morphologie & Lexikographie WS06/07 S.Nagel 2.3.3 1a. L ist hier ebenfalls eine Variante des Deutschen mit eingeschränktem Vokabular wie im Beispiel. Die Substantive der
MehrTopologische Dependenzgrammatik fürs Arabische. Vortrag von Marwan Odeh Betreut von Ralph Debusmannn Unter der Aufsicht von Prof.
Topologische Dependenzgrammatik fürs Arabische Vortrag von Marwan Odeh Betreut von Ralph Debusmannn Unter der Aufsicht von Prof. Gert Smolka Überblick Einführung Phänomene Modellierung in XDG Abschluss
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrSeminar : Information Retrieval Plagiaterkennung. Allgemeines Algorithmische Plagiaterkennung
Seminar: Information Retrieval Christoph Rauwolf 1 Allgemeines Algorithmische Ansätze Intrinsische Verfahren Extrinsische Verfahren Allgemeiner Ablauf Beispiele für Verfahren Verfahren von Efstathios Stamatatos
MehrInhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis
Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit
MehrParadigmen-lose, Halb-paradigmatische & Hybride Theorien von M
Paradigmen-lose, Halb-paradigmatische & Hybride Theorien von Morphologie Jochen Trommer jtrommer@uni-leipzig.de Universität Leipzig Institut für Linguistik Paradigmen WS 2008/2009 Morphologische Theorien
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrVII Typologische Unterscheidungen: analytisch synthetisch / agglutinierend - fusionierend
Fortmann, Proseminar Morphologie / Universität Konstanz Wintersemester 2006/07 VII Typologische Unterscheidungen: analytisch synthetisch / agglutinierend - fusionierend Morphosyntaktische Kategorien haben
Mehr