Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Größe: px
Ab Seite anzeigen:

Download "Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung."

Transkript

1 Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen behandelt werden können wie diese Texte ausgewählt und akquiriert werden wie sie aufbereitet (annotiert) werden und wie sie durchsucht/bearbeitet werden können (welche mathematischen Modelle für welche Probleme anwendbar sind) Vorverarbeitung: Themen Tokenisieren Wortartzuweisung (Tagging) Lemmatisieren Vorverarbeitung für viele linguistische Fragestellung muss ein Korpus vorverarbeitet werden Normalisierung auf Zeichenebene Sitzung historische Korpora festlegen von kleinsten Einheiten () Anreichern mit linguistischer Information (Annotation) Vorverarbeitung auf allen Vorverarbeitungsebenen werden (linguistische) Entscheidungen getroffen viele Vorverarbeitungstechniken sind fehleranfällig generelle Möglichkeiten: statistisch vs. regelgeleitet vs. hybrid viel oder wenig linguistisches Wissen Text kann als eine fortlaufende Zeichenkette interpretiert werden, die in kleinere Einheiten zerlegt werden muss Token - kleinste Einheit des Textes für weitere Annotationen 1

2 Token - kleinste Einheit des Textes für weitere Annotationen eine von Leerzeichen (das umfasst Tabulatorzeichen und Zeilenumbrüche) oder Interpunktion begrenzte Folge von Buchstaben oder Ziffern (Evert & Fitschen 2001, 371) graphemisches Wort (?) alle Satzzeichen, Interpunktionszeichen etc. werden von den Wörtern abgetrennt ( reguläre Ausdrücke, Listen, Heuristiken) "Wir sind in der Defensive", sagt etwa Larry Williams " Wir sind in der Defensive ", sagt etwa Larry Williams Aber sind solche rein graphemisch definierten Tokens die Einheit, mit der man weiterarbeiten will? [ ] Inzell, 27. Februar der Titel versprach nicht zuviel das Treffen der Eisschnelläufer in Inzell wurde wirklich zu einem "Festival der Rekorde" allein drei Weltrekorde hauchten auf der schnellen Bahn ihr Leben aus der holländische Weltund Europameister Kees Verkerk stellte mit 2.03,9 Minuten einen neuen Weltrekord über 1500 Meter auf [ ] (aus Mannheimer Korpus I) [ ] im entscheidenden Spiel schlugen die Sowjets die bis dahin punktgleichen Jugoslawen mit 71-/-59 ( 33-/-26 ) Endstand [ ] (aus Mannheimer Korpus I) [ ] und hatten noch drei Tage vor uns es regnete seit dem frühen Morgen, in keinem Kino lief ein Film, der mich interessiert hätte, und ich hatte gar nicht erst den Vorschlag gemacht, Mensch-ärgere-dich-nicht zu spielen [ ] (aus Mannheimer Korpus I) [ ] sagte Richard leise zog er die Tür hinter sich zu und blieb an dem schwach beleuchteten Treppenabsatz stehen welch eine Art von Zeitvertreib! als ob sie "Mensch, ärgere dich nicht" oder "Halma" spielten und wer war der Kerl an der Sendeanlage? [ ] (aus Bonner Zeitungskorpus) größere Einheiten können zusammengefügt werden Zahlen: , , BLZ reguläre Ausdrücke, Heuristiken Namen, feste Verbindungen: New York, Weil der Stadt, en passant, Vereinte Nationen, der Deutsche Bundestag Listen enthalten schon Entscheidungen, sind endlich 2

3 Partikelverben (Beispiele aus dem Parlamentsredenkorpus) Dass man in der Landwirtschaft auf die Freigabe des Anbaus wartet und Hanf anbauen will, Wird Hanf auf stillgelegten Flächen angebaut, gibt es anstelle der Beihilfe George Washington, liebe Kolleginnen und Kollegen, und Thomas Jefferson bauten auf ihren Plantagen Cannabis an. syntaktische Analyse nötig einige Tokens können noch aufgeteilt werden beim, zum, gibt s, siehste Listen, reguläre Ausdrücke, Heuristiken (will man Informationen über die ursprüngliche Form behalten?) bestimmte Sonderzeichen in Formeln u. ä.: Desambiguierung schwierig 42,195, 8:04:08 Patienten der WOS-(West of Scotland)-Studie Satzendeerkennung automatische Desambiguierung des nicht trivial, aber wichtig für alle späteren Verarbeitungsschritte Satzende Abkürzung (Gehört der Punkt zum Token? Was macht man dann, wenn der Satz mit einer Abkürzung endet?) Ev. Elisabeth-Krankenhaus, usw., George W. Bush in Zahlen 5. Versuch, Teilnehmer, 7.00 Uhr Ortszeit in bestimmten chemischen/medizinischen Namen E.coli-Bakterien Satzendeerkennung Liste von Abkürzungen, die einen Punkt enthalten; alle anderen Punkte sind dann Satzendepunkte Problem: Liste ist statisch, Abkürzungen können aber produktiv gebildet werden, Übertragbarkeit auf andere Domänen schwierig statistische Verfahren (Trainingskorpus, Assoziationsmaße) Problem: Fehleranfälligkeit, Übertragbarkeit auf andere Domänen nicht gewährleistet Satzendeerkennung regelgeleitet (Heuristiken) (folgendes Wort wird groß geschrieben etc.) Problem: mehr linguistisches Wissen notwendig, fehleranfällig, komplexe Regeln auf dieser Ebene werden bereits Entscheidungen getroffen/fehler gemacht, die sich auf alle späteren Vorverarbeitungsschritte auswirken einige Entscheidungen lassen sich ohne weiteres linguistisches Wissen nicht sicher treffen 3

4 Taggen beim Taggen ordnet man (im Prinzip beliebige) linguistische Informationen (im Prinzip beliebigen) Texteinheiten zu verkürzt wird Taggen meist für Wortartzuweisung (part-of-speech, pos) verwendet Wortarttaggen tokenbasiert (meist: Token = graphemisches Wort) als Eingabe für weitere computerlinguistische Anwendungen (Parser, sem. Verarbeitung, MT,...) man möchte ambige Wortformen einschränken können (COSMAS, Wendekorpus) schreiben Sie es ist also, meinen Namen in Bild meinen wir, ein Erfolg für alle Berliner Taggen man möchte alle Wörter in einer bestimmten Position in einer gegebenen Sequenz von Wortarten finden Bsp.: Sequenzen, in denen vor einem Nomen drei Adjektive stehen (Verbmobilkorpora) Was halten Sie von <richtig schönen deutschen Universitätsstädten>? Aber bitte vergessen Sie auch nicht, ein schönes, <frisch gezapftes Radeberger Bier>. und das geht <ganz schlecht nächste Woche> bei mir die <einzigste wirklich freie Woche>, die ich habe ist im August hm... Taggen Ergebnis: jedes Token erhält ein pos-tag was/pws halten/vvfin Sie/PPER von/appr richtig/adjd schönen/adja deutschen/adja Universitätsstädten/NN?/$ Tagset: man muss sich eine Menge von pos-tags definieren NB: Wortarten Wortarten können schwer definiert werden Anzahl der Wortarten wurde schon in der klassischen griechischen Grammatik diskutiert. Dionysius Thrax (100 v. Chr.): Nomen, Verb, Pronomen, Präposition, Adverb, Konjunktion, Partizip, Artikel NB: Wortarten positionsbasierte Definitionen (Position im Satz/ relativ zu anderen Wörtern), merkmalsbasierte Definitionen (bestimmte Flexionsmerkmale, semantische Merkmale etc.) syntaktische Funktion, morphologische Eigenschaften,... sprachübergreifende Definition? 4

5 Taggen: Tagset Tagset: Abwägen zwischen Genauigkeit (soll z.b. die grammatische Information kodiert werden?) und Handhabbarkeit Schlafmütze/NN Schlafmütze/NN NOM SG Schlafmütze/NN GEN SG Schlafmütze/NN DAT SG Schlafmütze/NN AKK SG Taggen: Tagsets Tagsets für deutsche Korpora (Rapp & Lezius 2001): IBM Heidelberg Uni Münster STTS (Stuttgart/Tübingen Tag Set) 50 ISSCO (Genf) 56 Morphy (Paderborn) Taggen: Zuweisung eines Tags Wie weist man einem Wort das passende Tag zu? Man schaut in s Lexikon. Was macht man, wenn ein Tag ambig ist? meinen/vvfin vs. meinen/pposat Oder wenn das Wort gar nicht im Lexikon steht? Taggen: Zuweisung eines Tags Möglichkeiten Lexikon Regeln absolute Wahrscheinlichkeiten Mischung der Verfahren Regeln zweistufige Architektur im ersten Schritt werden die pos-tags für alle bekannten Wörter aus dem Lexikon annotiert einige Wörter haben mehrere Tags einige Wörter haben keinen Tag dann werden Regeln angewendet, um die Ambiguitäten aufzulösen/die fehlenden Tags zu ergänzen Regeln im/apprart August/NN meinen/pposat/vvfin (keine besonders gute) Regel: nimm PPOSAT, wenn es im Satz bereits ein finites Verb gibt und wenn auf das ambige Wort nur noch ein Nomen und das Satzende folgt 5

6 Regeln im/apprart August/NN meinen/pposat (keine besonders gute) Regel: nimm PPOSAT, wenn es im Satz bereits ein finites Verb gibt und wenn auf das ambige Wort nur noch ein Nomen und das Satzende folgt Regeln Probleme: Formulierung der Regeln schwierig (man hat keine syntaktischen Abhängigkeiten zur Verfügung und je nach Tagset vielleicht auch keine Kongruenzinformation) man muss alle Eventualitäten voraussehen große Menge an Regeln: Reihenfolge schwierig Verfahren sprachspezifisch absolute Wahrscheinlichkeiten man rechnet auf einem großen (handgetaggten) Korpus die Wahrscheinlichkeiten aus, mit der eine gegebene Wortform ein bestimmtes Tag zugewiesen bekommt P(tag wort) bei Ambiguitäten aus dem Lexikon wird dann immer das wahrscheinlichste Tag genommen Problem: unwahrscheinliche Tags werden nie vergeben man rechnet (auf einem handgetaggten Korpus) die Wahrscheinlichkeiten von pos-folgen aus dann wird das Tag vergeben (aus den lexikalisch möglichen), das am wahrscheinlichsten auf die n (meistens 2) vorhergehenden Tags folgt n-gramme (Bigramme für n = 1, Trigramme für n = 2), Hidden Markov Models, Mathematik siehe Manning & Schütze (1999), Kapitel 10 im/apprart August/NN meinen/pposat/vvfin angenommen, alle Tags bis auf das Tag für meinen sind eindeutig im/apprart m-2 August/NN m-1 meinen/pposat/vvfin m dann rechnet man die Wahrscheinlichkeiten aus für die Sequenzen der Wortarten der Positionen m-2 m-1 m, wenn an Position m das Wort meinen steht 6

7 im/apprart August/NN meinen/pposat Wahrscheinlichkeit, dass meinen den Tag PPOSAT hat wenn es auf die Tagsequenz APPRART NN folgt im/apprart August/NN meinen/vvfin Wahrscheinlichkeit, dass meinen den Tag VVFIN hat wenn es auf die Tagsequenz APPRART NN folgt Nimm die höhere der Wahrscheinlichkeiten. Wenn ein Wort nicht im Lexikon steht, wird die Wortart nach demselben Verfahren zugewiesen. man braucht ein hangetaggtes Korpus der passenden Größe passende Größe ist abhängig von der Größe des Tagsets (je größer das Tagset, desto größer muss das Korpus sein, da man sonst bestimmte Sequenzen nicht oder zu selten findet (sparse data problem)) Taggen: Fehler bei diesem Verfahren gibt es systematische Fehler Wie kommen die folgenden Fehler zustande? nach 13 Jahren Kohl/NN [Mannheimer Korpus, TreeTagger] ich schmiede mir ne/fm schicke rubinklinge und kauf mir für viel gold beim örtlichen alchimisten ein gift/adjd um meine neue waffe/fm noch besser zu machen, und was passiert als ich das zeug/adjd auftrage/nn? [ TreeTagger] 7

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte. Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes

Mehr

Historische Linguistik HS Historische Korpuslinguistik

Historische Linguistik HS Historische Korpuslinguistik Historische Linguistik HS Historische Korpuslinguistik Anke Lüdeling Roland Hinterhölzl WS 2003/2004 per se 'Korpuslinguistik' (man hat ja nix anderes ) 19. Jhd. Entwicklung von Methodik zur Erforschung

Mehr

Organisatorisches. VL: Einführung in die Korpuslinguistik. Was mach ich, wenn ich ein Korpus will? Korpuserstellung - Themen

Organisatorisches. VL: Einführung in die Korpuslinguistik. Was mach ich, wenn ich ein Korpus will? Korpuserstellung - Themen Organisatorisches VL: Einführung in die Korpuslinguistik 05.05.: Vertretung durch Maik Walter: Der Lerner als Entdecker: Über den Umgang mit Daten in der Fremdsprachvermittlung Anke Lüdeling anke.luedeling@rz.hu-berlin.de

Mehr

Organisatorisches. Einführung in die Korpuslinguistik. Organisatorisches. Organisatorisches: Schein. Korpuslinguistik. Linguistische Daten

Organisatorisches. Einführung in die Korpuslinguistik. Organisatorisches. Organisatorisches: Schein. Korpuslinguistik. Linguistische Daten Organisatorisches Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 Kontakt: anke.luedeling@rz.hu-berlin.de, 030-20939799 Webseite für Vorlesung http://www.linguistik.huberlin.de/korpuslinguistik/lehre/ss-2005/hskorpuslinguistik/index.php

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern... Lemmatisierung Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 zum Lemmatisieren braucht man also ein Lexikon, in dem die Lemmata mit ihrer Flexionsklasse

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen

Mehr

Organisatorisches: Kontakt. Korpuslinguistik. Korpuslinguistik. Organisatorisches: Plan. Linguistische Daten. Daten in der Linguistik

Organisatorisches: Kontakt. Korpuslinguistik. Korpuslinguistik. Organisatorisches: Plan. Linguistische Daten. Daten in der Linguistik Organisatorisches: Kontakt Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Doktorandenseminar Bochum Oktober 2008 email: anke.luedeling@rz.hu-berlin.de homepage: http://www.linguistik.huberlin.de/institut/professuren/

Mehr

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part of Speech Tagging. Linguistische Sicht. Carolin Deck Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung

Mehr

Vorlesung Morphologie Flexion

Vorlesung Morphologie Flexion Vorlesung Morphologie 13.6. - Flexion Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2008 Vertretung: Hagen Hirschmann Flexion Inhalte heute Flexionskategorien & Paradigmata Nomen Adjektive

Mehr

Einführung in die Computerlinguistik. Morphologie II

Einführung in die Computerlinguistik. Morphologie II Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Wintersemester 2009/10, Prof. Dr. Udo Hahn, Erik Fäßler Übungsblatt 6 vom 10.12.2009 Abgabe bis 15.12.2009, 23:59 Uhr; per

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Empirie II: Wortarten im Kontext (Tagging)

Empirie II: Wortarten im Kontext (Tagging) G. Schneider: Morphologieanalyse und Lexikonaufbau, SS 2000 Page 1 Empirie II: Wortarten im Kontext (Tagging) Morphologieanalyse und Lexikonaufbau (12. Vorlesung) Dozent: Gerold Schneider Übersicht Was

Mehr

ANNIS Quickstart

ANNIS Quickstart Suche in ANNIS Bevor man suchen kann, muss das gewünschte Korpus in der Korpusliste ausgewählt werden (z.b. das Teilkorpus mo (monoethnisches Ergänzungskorpus) oder KiDKo mu (multiethnisches Korpus). Danach

Mehr

Musterlösung zur Abschlussklausur

Musterlösung zur Abschlussklausur Einführung in die Computerlinguistik Sommersemester 2012 Department Linguistik Peter Kolb 9.9.2012 Musterlösung zur Abschlussklausur 1. Aufgabe Ein Programm zum maschinellen Übersetzen verfügt über ein

Mehr

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von

Mehr

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:

Mehr

COSMAS II Corpus Search Management and Analysis System

COSMAS II Corpus Search Management and Analysis System COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die

Mehr

Erweiterung des STTS für gesprochene Sprache

Erweiterung des STTS für gesprochene Sprache Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am 23.10.2006 Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk Übersicht Aufgabenstellung

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 8. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU (Fortsetzung LC-/Chart-Parsing) Statistische Verfahren in der KI Impliziert Maschinelles

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010 Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV September 2015 David Stoppel, Franziska Wallner Einleitung Die Lemmalisten liefern Häufigkeitsangaben für Wörter der deutschen gesprochenen

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus LAUDATIO-Workshop Hagen Hirschmann

Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus LAUDATIO-Workshop Hagen Hirschmann Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus 07.10.2014 LAUDATIO-Workshop Hagen Hirschmann Was ist ANNIS? ANNIS steht für ANNotation of Information Structure http://www.sfb632.uni-potsdam.de/d1/annis/

Mehr

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die Corpus Workbench und ihre Syntax Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die IMS Open Corpus Workbench (CWB) Mächtige Konkordanz- und Korpusanalyse-Software

Mehr

Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch

Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch Christiane Pankow Helena Pettersson Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch 1. Einleitung In den letzten Jahren ist die Erstellung

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische

Mehr

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26 Adjektiv-Schema Deutsche Nomen und Adjektive haben wesentlich mehr Paradigmen als unterschiedliche lexikalische Formen. Für die Endungsformen -en und -e ergeben sich 26 bzw. 11 Paradigmen. Eine Darstellung

Mehr

Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging)

Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging) Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistikbasiertes Tagging) Morphologieanalyse und Lexikonaufbau (6. Vorlesung) Dozent: Gerold Schneider Übersicht Was ist ein Token? Was

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Sprachsynthese: Textnormalisierung

Sprachsynthese: Textnormalisierung Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung

Mehr

Aufgabe. Erstellen eines kleinen Lernerkorpus exemplarisches Aufzeigen, wie Fehler sinnvoll klassifiziert und annotiert werden könnten

Aufgabe. Erstellen eines kleinen Lernerkorpus exemplarisches Aufzeigen, wie Fehler sinnvoll klassifiziert und annotiert werden könnten Aufgabe Erstellen eines kleinen Lernerkorpus exemplarisches Aufzeigen, wie Fehler sinnvoll klassifiziert und annotiert werden könnten Mitstreiterinnen: Elena Briskina, Julia Hantschel, Jenny Krüger, Stéphanie

Mehr

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Lehrstuhl für Programmierparadigmen prachtechnologie und Compiler W 2008/2009 http://pp.info.uni-karlsruhe.de/ Dozent: Prof. Dr.-Ing. G. nelting snelting@ipd.info.uni-karlsruhe.de

Mehr

Einführung in die Computerlinguistik POS-Tagging

Einführung in die Computerlinguistik POS-Tagging Einführung in die Computerlinguistik POS-Tagging Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2013 POS Tags (1) POS = part-of-speech Tags sind morphosyntaktische Kategorien von Wortformen.

Mehr

Computerlinguistik: Ein Überblick

Computerlinguistik: Ein Überblick 11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

TnT - Statistischer Part-of- Speech Tagger

TnT - Statistischer Part-of- Speech Tagger TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen

Mehr

Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation

Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Semantische Annotation Lesarten annotieren (sense tagging) ein bisschen was zu Lesarten

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

ABSCHNITT I EINLEITUNG

ABSCHNITT I EINLEITUNG 1 ABSCHNITT I EINLEITUNG A. Hintergrund des Problems Sprache wird von allen genutzt, um ihre Wünsche, Ideen und Überlegungen zu äußern. Außerdem benutzen Menschen auch Sprache, damit sie miteinander in

Mehr

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

7. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten

7. Klasse. Grammatik. Deutsch. Grammatik. in 15 Minuten Grammatik 7. Klasse Deutsch Grammatik in 15 Minuten Klasse So übst du mit diesem Buch Im Inhaltsverzeichnis findest du alle für deine Klassenstufe wichtigen Themengebiete. Du hast zwei Möglichkeiten: 1.

Mehr

Chunk linking und Chunk attachment

Chunk linking und Chunk attachment Titus von der Malsburg, Heike Stadler Chunk linking und Chunk attachment HS Parsing, Karin Haenelt Heidelberg, 8.7.2002 Chunk linking und Chunk attachment Inhalt Was ist Chunk linking und Chunk attachment?

Mehr

Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010

Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010 Universität zu Köln Institut für Linguistik Abteilung Sprachliche Informationsverarbeitung Hausarbeit Seminar: Computerlinguistik II Dozent: Jürgen Hermes M.A. Sommersemester 2010 Thema: Part-of-Speech

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann hirschhx@hu-berlin.de... und vielen anderen Mitarbeitern der HU-Korpuslinguistik

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

Digital Humanities Recherche im DWDS und DTA

Digital Humanities Recherche im DWDS und DTA Digital Humanities Recherche im DWDS und DTA mit Booleschen Operatoren und Regulären Ausdrücken Jena Language & Information Engineering (JULIE) Lab Friedrich-Schiller-Universität Jena, Germany http://www.julielab.de

Mehr

Aufbau eines Flexionslexikons für die Katalogbereinigung

Aufbau eines Flexionslexikons für die Katalogbereinigung Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Part-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09

Part-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09 Part-of-Speech Tagging Machine Language Processing Heike Zinsmeister WS 2008/09 Motivation Part of Speech = Wortart Tokenisierung Zerlegung einer Sprache in Wörter Lexikon Wortinventar einer Sprache Anzahl

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Ein bisschen Werbung. Einführung in die Morphologie Einleitung, Grundbegriffe I. Organisatorisches. Organisatorisches. Plan (vorläufig) Material

Ein bisschen Werbung. Einführung in die Morphologie Einleitung, Grundbegriffe I. Organisatorisches. Organisatorisches. Plan (vorläufig) Material Ein bisschen Werbung Einführung in die Morphologie Einleitung, Grundbegriffe I Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2008 "Morphology is the conceptual centre of linguistics. This

Mehr

WDG Analyse und Transformation (WAT)

WDG Analyse und Transformation (WAT) WDG Analyse und Transformation (WAT) Studienprojekt von Ineta Sejane und Wiebke Wagner am Institut für Deutsche Sprache Mannheim WDG Das Wörterbuch zur deutschen Grammatik WDG enthält ca. 150 000 Lemmata.

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier: Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Das Grammatikfundament: Wortarten Das komplette Material finden Sie hier: School-Scout.de Uta Livonius Das Grammatikfundament: Wortarten

Mehr

Korpuslinguistik IDS-Korpora und COSMAS II

Korpuslinguistik IDS-Korpora und COSMAS II Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche

Mehr

Morphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005

Morphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005 Morphologie, Lemmatisierung und Wortartenklassifikationen Morphologieanalyse und Lexikonaufbau (1. Vorlesung) Übersicht Was ist Morphologie? Warum braucht man Morphologieanalyse in der CL? Was ist ein

Mehr

Grundverben 10 sein haben werden 10 ich bin, ich habe, ich werde können dürfen müssen 12 ich kann, ich muss, ich darf,

Grundverben 10 sein haben werden 10 ich bin, ich habe, ich werde können dürfen müssen 12 ich kann, ich muss, ich darf, Verb 1.1 1.2 1.3 1.4 1.5 1.6 Grundverben 10 sein haben werden 10 ich bin, ich habe, ich werde können dürfen müssen 12 ich kann, ich muss, ich darf, sollen wollen mögen ich will, ich soll, ich mag/möchte

Mehr

Linguistische Daten. Hauptseminar: Einführung in die Korpuslinguistik. Linguistische Daten. Introspektion. Psycholinguistische Experimente

Linguistische Daten. Hauptseminar: Einführung in die Korpuslinguistik. Linguistische Daten. Introspektion. Psycholinguistische Experimente Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Introspektion Die Linguistin sitzt im Lehnstuhl und beurteilt Sprachdaten (arm-chair

Mehr

Wort. nicht flektierbar. flektierbar. Satzgliedwert. ohne Satzwert. mit Fügteilcharakter. ohne. Fügteilcharakter

Wort. nicht flektierbar. flektierbar. Satzgliedwert. ohne Satzwert. mit Fügteilcharakter. ohne. Fügteilcharakter Wort flektierbar nicht flektierbar mit Satzwert ohne Satzwert mit Satzgliedwert ohne Satzgliedwert mit Fügteilcharakter ohne Fügteilcharakter mit Kasusforderung ohne Kasusforderung Modalwort Adverb Präposition

Mehr

Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1

Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1 Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1 Thomas Krause 1 Vorkenntnisse??? 2 Hands On Im Browser (möglichst Firefox oder Chrome) https://korpling.german.hu-berlin.de/annis3/ aufrufen Nachfragen!

Mehr

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um

Mehr

Flexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem

Flexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem Grundkurs Germanistische Linguistik (Plenum) Judith Berman 23.11.04 vs. Wortbildung (1)a. [saft - ig] b. [[An - geb] - er] Derivationsmorphem vs. smorphem (4)a. Angeber - saftiger b. saftig - Safts c.

Mehr

Sprachsynthese: Part-of-Speech-Tagging

Sprachsynthese: Part-of-Speech-Tagging Sprachsynthese: Part-of-Speech-Tagging Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 29. Oktober 2014 Inhalt POS- Markov- Transformationsbasiertes

Mehr

Langenscheidt Deutsch-Flip Grammatik

Langenscheidt Deutsch-Flip Grammatik Langenscheidt Flip Grammatik Langenscheidt Deutsch-Flip Grammatik 1. Auflage 2008. Broschüren im Ordner. ca. 64 S. Spiralbindung ISBN 978 3 468 34969 0 Format (B x L): 10,5 x 15,1 cm Gewicht: 64 g schnell

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr

Tokenisierer Überblick

Tokenisierer Überblick 1 1. Überblick (engl. Tokenizers) sind Programme, die Texte für die Weiterverarbeitung durch anderer Programme (z.b. Tagger, Stemmer, Lemmatisierer oder Parser) in Teilketten, sog. Token zerlegen. Was

Mehr