Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Größe: px
Ab Seite anzeigen:

Download "Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation"

Transkript

1 Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

2 Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines Korpus

3 Ambiguität verschiedene Arten der Ambiguität (Mehrdeutigkeit) syntaktische lexikalische phonologische orthografische Mehrdeutigkeit tritt in echten Kommunikationssituationen sehr selten auf. Sprachwissenschaftliche Beispiele sind meist konstruiert.

4 Ambiguität Beispiel (1) ist ein typisches konstruiertes Beispiel. (1) Der Mann sieht den Jungen mit dem Teleskop. Beispiele (2) und (3) sind im echten Kontext sicher nicht mehrdeutig. (2) Klaus hat ein(en) Laster. (3) Klara isst im Garten.

5 Ambiguität Für Rechner gibt es kaum Strukturen, die nicht mehrdeutig sind. Grund: mangelnde Informationen über Semantik Wahrscheinlichkeit Weltwissen Kontext

6 Ambiguität (1) Diese Brause trinkt sie am Liebsten. (2) Die Mutter liebt die Tochter. (3a) Klaus hat lange Nudeln gegessen. (3b) Klaus hat lange Äpfel gegessen. Aufgrund reiner morpho-syntaktischer Informationen sind diese Sätze für Maschinen nicht disambiguierbar.

7 Motivation für Wortarten-Tagging explizite Annotierung von syntaktischen Informationen dient der maschinellen Bearbeitung z.b.: Suche in Korpora (für uns wichtig!) maschinelle Übersetzung weitere maschinelle Annotation z.b. Parsing z.b. morphologische Annotation

8 Motivation für Wortarten-Tagging Auflösung unterschiedlicher Funktion bei orthografischer Ambiguität (1) Ohne/KOUI den Applaus abzuwarten, ging der Künstler. (2) Ohne/APPR den Applaus ging der Künstler. Wortartentags disambiguieren (vereindeutigen) verschiedene Lesarten

9 Motivation für Wortarten-Tagging in einigen Fällen wird die Motivation für Wortarten-Tagging noch deutlicher Fragestellung: Welches zweier aufeinanderfolgender Adjektive im Dativ (mask./neut.) endet auf ``m? (1) in einem schönem großen Garten (2) in einem schönen großem Garten (3) in einem schönem großem Garten

10 Motivation für Wortarten-Tagging wenn nicht explizit vermerkt ist, welche Wortart ein Wort hat, kann man nur nach Buchstabenfolgen suchen Hier: ``Wort auf -en gefolgt von Wort auf em gefolgt von groß geschriebenem Wort Diese Suche unterscheidet nicht nach Wortarten Ergebnis auf folgender Folie zeigt viele nicht gewollte Resultate

11 Suchausdruck: [word="[a-z].+en"][word="[a-z].+em"][word="[a-z].+"] mit einem deutlich erhöhten gesundheitslichem Risiko. Sie seien. Für Deutschland nehmen außerdem Bundestagspräsidentin Rita Süssmuth, an. Es werden außerdem Projekte und Institutionen besucht wurde halboffiziell mit dessen mangelhaftem Französisch begründet. Ein gleichsam eine Schnittstelle zwischen reinem Klangstück und Diskurs., eine Welt zwischen enttäuschtem Sturm und Drang und zu Kunden in dessen angestammtem Versorgungsgebiet. Wirtschaftsminister Günter Nur wenige Jordanier trauen seinem Bruder und designierten Nachfolger, die Gratwanderung zwischen eigenem Umfeld und etablierten Machtstrukturen und Dorothea Schrade kommen diesem Bedürfnis nach. Seit Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen, weiter die Schere zwischen gewerkschaftlichem Forderungskatalog und Alltag in

12 Motivation für Wortarten-Tagging wenn man versucht die Treffermenge einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf -em gefolgt von groß geschriebenem Wort Ergebnis auf folgender Folie

13 [word="einem dem seinem ihrem diesem dem"][word="[a-z].+en"][word="[a-z].+em"][word="[a-z].+"] der Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen,

14 Motivation für Wortarten-Tagging Fazit zu ``weite Kriterien liefern zu viele Ergebnisse d.h. zu viele falsche Treffer zu ``enge Kriterien liefern zu wenige Ergebnisse d.h. zu viele richtige Treffer werden nicht gefunden

15 Motivation für Wortarten-Tagging Und mit Wortarten-Tags? Suchausdruck: [pos="adja" & word=".+en"][pos="adja" & word=".+em"] mit einem deutlich erhöhten gesundheitslichem Risiko. Sie Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen

16 Motivation für Wortarten-Tagging ohne Wortarten-Tags umfasst die Menge der Ergebnisse entweder alle richtigen Ergebnisse, aber auch viele falsche (Übergenerierung) nur richtige Ergebnisse, aber nicht alle richtigen (Untergenerierung)

17 Motivation für Wortarten-Tagging Übergenerierung Menge der gesuchten Strukturen Menge der Treffer

18 Motivation für Wortarten-Tagging Untergenerierung Menge der Treffer Menge der gesuchten Strukturen

19 Definition Wortarten-Tagging Wortarten-Tagging ist die Zuweisung von Wortarten-Kennungen (Tags) an Wortformen (Tokens) im Text ein Token ist eine typischerweise durch Leerzeichen abgegrenzte Buchstabenfolge im Text ein Token kommt also immer nur ``einmal vor

20 Definition Wortarten-Tagging John/NE Mack/NE trägt/vvfin seinen/pposat Spitznamen/NN "/$( das/art Messer/NN "/$( zu/appr Recht/NN./$. links Tokens rechts Tags zwei Tokens, ein Type

21 Tagsets Zuweisung der Wortarten-Tags erfolgt durch eine endliche Menge von Tags, die eine Wortart oder Unterwortart beschreiben diese Menge nennt man Tagsets Tagsets müssen Tags eindeutig definieren jedes Token definieren können Konventionen für Zweifelsfälle bereithalten

22 STTS einen Quasi-Standard beim Wortarten- Tagging stellt das STTS dar STTS = Stuttgart-Tübingen-Tagset das STTS umfasst in seiner ``kleinen Version 54 Tags das STTS wird in einer Tagset- Beschreibung (Guidelines) definiert

23 Hauptwortarten im STTS 1. Nomina (N) Hund, Katze, Maus, Peter 2. Verben (V) arbeiten, beten, sollen, sein 3. Artikel (ART) der, die, das, ein 4. Adjektive (ADJ) schön, blöd, töfte 5. Pronomina (P) er, sie, es, sich, irgendein 6. Kardinalzahlen (CARD) zwei, , III 7. Adverbien (ADV) sehr, üblicherweise 8. Konjunktionen (KO) und, oder, dass, weil 9. Adpositionen (AP) mit, ohne, an... entlang 10. Interjektionen (ITJ) oh weh, zapperlot 11. Partikeln (PTK) zu, wider, bitte

24 Kriterien für Definition von Tags Einteilung nach unterschiedlichen Kriterien distributionelle: über/appr die Straße die Straße entlang/appo morphologische: findet/vvfin, gefunden/vvpp semantische: Klaus/NE, Maus/NN Mischung der Kriterien kann zu unterschiedlichen Ergebnissen führen Einteilung ist theorieabhängig

25 Konventionen für Tagging Konventionen halten Vorgehen für strittige Fälle fest Sie müssen eindeutig sein intersubjektiv sein möglichst vollständig sein

26 Beispiele für Konventionen einige Wörter tragen Merkmale verschiedener Wortarten ins sich Konventionen legen eindeutige Annotierung fest (1) eine gute/adja Idee (2) Das ist das Gute/NN daran. (3) der angemalte/adja Zaun (4) Man hat den Zaun angemalt/vvpp.

27 Umsetzung der Konventionen Die korrekte händische Annotation eines Korpus erfordert die Einhaltung der Konventionen und folgender Regeln: Korpus wird zunächst unabhängig von zwei verschiedenen Annotatoren annotiert Ergebnisse werden gegeneinander abgeglichen und Inter Annotator Agreement gemessen (d.i. die Übereistimmung zwischen den Entscheidungen der unterschiedlichen Annotatoren) erst bei hinreichender Übereinstimmung wird nur noch von einem Linguisten annotiert

28

29 Anwendbarkeit Für ein Tagset müssen immer die Argumente des linguistisch Wünschenswerten gegen die des technisch Machbaren abgewogen werden. hohes Inter Annotator Agreement muss erreichbar sein Einteilung der Klassen muss automatische Annotation mit niedriger Fehlerrate ermöglichen, d.h. Klassen müssen auch automatisch klar gegeneinander abgrenzbar sein Klassen dürfen nicht zu selten auftreten, da sonst zu geringe Trainingsdatenmenge für automatisches Lernen

30 Beispiel für Kompromiss Ein Standardbeispiel für einen Kompromiss ist das Tag ADJD im Standard-Tagset STTS. Wörter, die sowohl als prädikatives Adjektiv als auch als Adverb fungieren können, werden ADJD getaggt - losgelöst von ihrer jeweiligen Verwendung. (1) Maria singt schön/adjd. --> adverbial (2) Maria ist schön/adjd. --> prädikativ Eine Aufteilung der beiden Lesarten wäre sowohl mit stochastischen als auch mit regelbasierten Verfahren nicht möglich.

31 Automatisches Tagging Es gibt zwei Arten des automatischen Taggings: regelbasiertes Tagging benötigt (handgeschriebene) Grammatik stochastisches Tagging benötigt (handannotiertes) Trainings-Korpus

32 Regelbasiertes Tagging typischerweise zwei Ebenen für regelbasierte Tagger Lexikon-Nachschlag weist Ambiguitätsklasse zu Grammatik-Regeln disambiguieren Eine Ambiguitätsklasse ist die Menge aller Tags, die ein Wort losgelöst vom Kontext haben kann.

33 Regelbasiertes Tagging Die/ART-PRELS-PDS Hose/NN sitzt/vvfin schlecht/adjd./$. ``Constraints schränken die Lesarten ein, z.b.: kein Relativpronomen am Satzanfang kein (substituierendes) Demonstrativpronomen vor Nomen

34 Regelbasiertes Tagging Probleme regelbasierten Taggings: Lexikon ist nie vollständig es gibt kaum echte Constraints Interaktion der Regeln schlecht überschaubar Selten/ADJD trinkt/vvfin die/art-prels- PDS Milch/NN.

35 Stochastisches Tagging benötigt nur getaggtes Korpus als Trainingsdaten berechnet Übergangswahrscheinlichkeiten weist wahrscheinlichstes Tag zu kann auch Rangfolge zuweisen

36 Stochastisches Tagging zwei Arten von Wahrscheinlichkeiten 1. Wahrscheinlichkeit für Tag in Bezug auf vorausgehende(s) Tag(s) (distributionell) 2. Wahrscheinlichkeit für Wort in Bezug auf Tag (lexikalisch) P (Tag vorhergehende(s) Tag(s)) * (Wort Tag)

37 Stochastisches Tagging (1) Ich/PPER bügle/vvfin meine/pposat-vvfin Hose/NN./\$. (2) Ich/PPER meine/pposat-vvfin,\$. das/pds ist/vafin falsch/adjd.\$. Es wird die Wahrscheinlichkeit, dass VVFIN oder PPOSAT `meine' ist, multipliziert mit der Wahrscheinlichkeit, dass VVFIN oder PPOSAT entweder VVFIN (1) oder PPER (2) folgen. Höhere lexikalische Wahrscheinlichkeit von `meine' für PPOSAT wird in (2) durch höhere distributionelle Wahrscheinlichkeit von VVFIN nach PPER ausgeglichen.

38 Probleme stochastischen Taggings Wahrscheinlichkeit bedeutet nicht unbedingt Sicherheit Tagger sehr abhängig von Trainingskorpus Entscheidungen typischerweise auf engen Kontext begrenzt Entscheidungen des Taggers nicht nachvollziehbar

39 Wortarten-Tagging Besondere Relevanz für Korpuslinguistik Korpora meist nicht hand-annotiert daher können Tags fehlerhaft sein dies muss in Interpretation der Suchergebnisse berücksichtigt werden

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill

Mehr

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part of Speech Tagging. Linguistische Sicht. Carolin Deck Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung. Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen

Mehr

VorlaugeGuidelinesfurdasTaggingdeutscherTextcorpora AnneSchiller,SimoneTeufel,ChristineStockert mitstts InstitutfurmaschinelleSprachverarbeitung UniversitatStuttgart SeminarfurSprachwissenschaft UniversitatTubingen

Mehr

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table

Mehr

Empirie II: Wortarten im Kontext (Tagging)

Empirie II: Wortarten im Kontext (Tagging) G. Schneider: Morphologieanalyse und Lexikonaufbau, SS 2000 Page 1 Empirie II: Wortarten im Kontext (Tagging) Morphologieanalyse und Lexikonaufbau (12. Vorlesung) Dozent: Gerold Schneider Übersicht Was

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am 23.10.2006 Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk Übersicht Aufgabenstellung

Mehr

Phonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München

Phonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München Phonetische Lexika Part-of-Speech Tagging Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de Inhalt Parts of Speech POS-Tagging-Probleme: OOV, Ambiguitäten Regelbasierte Tagger Markov-Tagger

Mehr

Sprachsynthese: Part-of-Speech-Tagging

Sprachsynthese: Part-of-Speech-Tagging Sprachsynthese: Part-of-Speech-Tagging Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 29. Oktober 2014 Inhalt POS- Markov- Transformationsbasiertes

Mehr

Modifikationsvorschläge zu STTS Stand der bisherigen Diskussion

Modifikationsvorschläge zu STTS Stand der bisherigen Diskussion Modifikationsvorschläge zu STTS Stand der bisherigen Diskussion Heike Zinsmeister STTS-Workshop, 24. September 2012 0/18 Eine kleine Chronik Vorläufer - ELWIS (Helmut Feldweg, Christine Thielen, Tübingen),

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Erweiterung des STTS für gesprochene Sprache

Erweiterung des STTS für gesprochene Sprache Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart

Mehr

Psycholinguistik. p. 1/28

Psycholinguistik. p. 1/28 Psycholinguistik p. 1/28 Psycholinguistik: Allgemeine Fragen Wie und wo wird die Sprache im Gehirn verarbeitet? Sprachentwicklung 1: Wie erwerben Kinder ihre Muttersprache (Erstpracherwerb)? Sprachentwicklung

Mehr

Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch

Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch Christiane Pankow Helena Pettersson Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch 1. Einleitung In den letzten Jahren ist die Erstellung

Mehr

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Theorie und Klassenübungen (mit Lösungen) Geeignet für 8. bis 10. Schuljahr MSV- Unterricht ILF- Unterricht Als Skript verwendbar Mit Kommentaren und Erklärungen

Mehr

DWDS: Hilfe Kurzübersicht

DWDS: Hilfe Kurzübersicht DWDS: Hilfe Kurzübersicht (auch online unter http://www.dwds.de/?corpus=1&opt=hilfe&qu) Voreinstellungen Lemmasuche: Suchwörter werden automatisch zum Lemma expandiert. Vorsicht: befindet sich das Suchwort

Mehr

Part-of-Speech-Tagging mit Transduktoren

Part-of-Speech-Tagging mit Transduktoren Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria

Mehr

Part-of-Speech-Tagging mit Transduktoren

Part-of-Speech-Tagging mit Transduktoren Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria

Mehr

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte. Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive

Mehr

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die Corpus Workbench und ihre Syntax Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die IMS Open Corpus Workbench (CWB) Mächtige Konkordanz- und Korpusanalyse-Software

Mehr

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV September 2015 David Stoppel, Franziska Wallner Einleitung Die Lemmalisten liefern Häufigkeitsangaben für Wörter der deutschen gesprochenen

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

PROBLEME DER WORTARTEN-KLASSIFIKATION

PROBLEME DER WORTARTEN-KLASSIFIKATION PROBLEME DER WORTARTEN-KLASSIFIKATION 1. Vollständigkeit der Klassifikation: Werden alle Ausdrücke erfasst? Beispielsweise wie und als in Er verhält sich wie ein Kind, Sie als Lehrerin (Adjunktive, IdS;

Mehr

I. SEMIOTISCHE UND LINGUISTISCHE GRUNDBEGRIFFE. Kommunikation = wichtige Form sozialer Interaktion:

I. SEMIOTISCHE UND LINGUISTISCHE GRUNDBEGRIFFE. Kommunikation = wichtige Form sozialer Interaktion: Herkner / Kapitel 3 / Teil 1 140 3. KAPITEL: SPRACHE UND WISSEN I. SEMIOTISCHE UND LINGUISTISCHE GRUNDBEGRIFFE Kommunikation = wichtige Form sozialer Interaktion: verbale Kommunikation mit Hilfe von Sprache

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Syntax. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Syntax. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Syntax Wiederholung Aufgabe 1 Was ist Syntax und womit beschäftigt sie sich? 3 Aufgabe 1 Was ist Syntax und womit beschäftigt

Mehr

SATZGLIEDER UND WORTARTEN

SATZGLIEDER UND WORTARTEN SATZGLIEDER UND WORTARTEN 1. SATZGLIEDER Was ist ein Satzglied? Ein Satzglied ist ein Bestandteil eines Satzes, welches nur als ganzes verschoben werden kann. Beispiel: Hans schreibt einen Brief an den

Mehr

Inhalt.

Inhalt. Inhalt EINLEITUNG II TEIL A - THEORETISCHE ASPEKTE 13 GRAMMATIK 13 Allgemeines 13 Die sprachlichen Ebenen 15 MORPHOLOGIE 17 Grundbegriffe der Morphologie 17 Gliederung der Morpheme 18 Basis- (Grund-) oder

Mehr

Morphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005

Morphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005 Morphologie, Lemmatisierung und Wortartenklassifikationen Morphologieanalyse und Lexikonaufbau (1. Vorlesung) Übersicht Was ist Morphologie? Warum braucht man Morphologieanalyse in der CL? Was ist ein

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

ANNIS Quickstart

ANNIS Quickstart Suche in ANNIS Bevor man suchen kann, muss das gewünschte Korpus in der Korpusliste ausgewählt werden (z.b. das Teilkorpus mo (monoethnisches Ergänzungskorpus) oder KiDKo mu (multiethnisches Korpus). Danach

Mehr

Einführung in die Programmiertechnik

Einführung in die Programmiertechnik Einführung in die Programmiertechnik Formale Beschreibung von Programmiersprachen Lexikalische Regeln Definition von Wörtern (Lexem, Token) Gruppierung von Zeichen Lexikalische Kategorien: Klassen ähnlicher

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.

Mehr

3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische...

3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische... Inhaltsverzeichnis 1. Mauritius und das Kreolische auf Mauritius... 13 1.1 Landeskundlicher Teil ein Vorwort... 13 1.2 Zu Geographie, Bevölkerungsgruppen und Sprachen auf Mauritius... 14 1.3 Definition:

Mehr

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 - 1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik

Mehr

TnT - Statistischer Part-of- Speech Tagger

TnT - Statistischer Part-of- Speech Tagger TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Worteinbettung als semantisches Feature in der argumentativen Analyse

Worteinbettung als semantisches Feature in der argumentativen Analyse Worteinbettung als semantisches Feature in der argumentativen Analyse Bachelorverteidigung Kevin Lang 22.03.2016 Übersicht Was ist die argumentative Analyse? Worteinbettung und Word2Vec Resultate Diskussion

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann hirschhx@hu-berlin.de... und vielen anderen Mitarbeitern der HU-Korpuslinguistik

Mehr

Kap.1: Was ist Wissen? 1.1 Begriff des Wissens (1)

Kap.1: Was ist Wissen? 1.1 Begriff des Wissens (1) Kap.1: Was ist Wissen? 1.1 Begriff des Wissens (1) Zusammenfassung: Diskutiert wurde: A) Wissensbegriff in verschiedenen Wissenschaften B) Daten Information Wissen Ebenen: (E1) Übermittlung physikalischer

Mehr

Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging)

Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging) Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistikbasiertes Tagging) Morphologieanalyse und Lexikonaufbau (6. Vorlesung) Dozent: Gerold Schneider Übersicht Was ist ein Token? Was

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um

Mehr

Wort. nicht flektierbar. flektierbar. Satzgliedwert. ohne Satzwert. mit Fügteilcharakter. ohne. Fügteilcharakter

Wort. nicht flektierbar. flektierbar. Satzgliedwert. ohne Satzwert. mit Fügteilcharakter. ohne. Fügteilcharakter Wort flektierbar nicht flektierbar mit Satzwert ohne Satzwert mit Satzgliedwert ohne Satzgliedwert mit Fügteilcharakter ohne Fügteilcharakter mit Kasusforderung ohne Kasusforderung Modalwort Adverb Präposition

Mehr

Computerlinguistik: Ein Überblick

Computerlinguistik: Ein Überblick 11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik

Mehr

Deutsche Grammatik WS 14/15. Kerstin Schwabe

Deutsche Grammatik WS 14/15. Kerstin Schwabe Deutsche Grammatik WS 14/15 Kerstin Schwabe Generelle Information Dr. Kerstin Schwabe Zentrum für Allgemeine Sprachwissenschaft Schützenstraße 18, R. 432 10117 Berlin Tel.: 20192410 E-mail: schwabe@zas.gwz-berlin.de

Mehr

Diskursmarker aus korpuslinguistischer Sicht POS-Annotation von Diskursmarkern in FOLK. Swantje Westpfahl 1

Diskursmarker aus korpuslinguistischer Sicht POS-Annotation von Diskursmarkern in FOLK. Swantje Westpfahl 1 Erschienen in: Blühdorn, Hardarik/Deppermann, Arnulf/Helmer, Henrike/Spranz-Fogasy, Thomas (Hrsg.): Diskursmarker im Deutschen. Reflexionen und Analysen. - Göttingen: Verlag für Gesprächsforschung, 2017.

Mehr

Tutorial II: Corpus Methods for Historical Linguistics

Tutorial II: Corpus Methods for Historical Linguistics Tutorial II: Corpus Methods for Historical Linguistics Formal Diachronics Semantics 2016 University of Konstanz Christin Schätzle and Gerold Schneider firstname.lastname@uni-konstanz.de 13.09.2016 1 Regular

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Einführung in die Informatik I (autip)

Einführung in die Informatik I (autip) Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis

Mehr

Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010

Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010 Universität zu Köln Institut für Linguistik Abteilung Sprachliche Informationsverarbeitung Hausarbeit Seminar: Computerlinguistik II Dozent: Jürgen Hermes M.A. Sommersemester 2010 Thema: Part-of-Speech

Mehr

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:

Mehr

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache MASARYK - UNIVERSITÄT IN BRNO PÄDAGOGISCHE FAKULTÄT Lehrstuhl für deutsche Sprache und Literatur Einführung in die Morphologie der deutschen Sprache Studienmaterial für die Lehramtstudenten PhDr. Olga

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier: Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Das Grammatikfundament: Wortarten Das komplette Material finden Sie hier: School-Scout.de Uta Livonius Das Grammatikfundament: Wortarten

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines

Mehr

GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE

GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE RÄUME - GRENZEN - ÜBERGÄNGE: 5. Kongress der Internationalen Gesellschaft für Dialektologie des Deutschen 10. - 12. September 2015 Universität Luxemburg GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET

Mehr

COSMAS II Corpus Search Management and Analysis System

COSMAS II Corpus Search Management and Analysis System COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die

Mehr

RAW TEXT TOKENIZATION + PRE - TAGGING LEXICAL RESSOURCES REFERENCE CORPUS AMBIGUOUSLY ANNOTATED TEXT TRANSITION TABLES + WORD TAG PROBAB.

RAW TEXT TOKENIZATION + PRE - TAGGING LEXICAL RESSOURCES REFERENCE CORPUS AMBIGUOUSLY ANNOTATED TEXT TRANSITION TABLES + WORD TAG PROBAB. Ansätze des Tagging Ein Seminarreferat, vorgestellt von Alexander Valet, Christian Pretzsch und Vanessa Micelli im Rahmen des Hauptseminars Parsing bei Dr. Karin Haenelt im SS 2003 an der Ruprecht-Karls

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische

Mehr

Morphologie, Lemmatisierung und Wortartenklassifikationen

Morphologie, Lemmatisierung und Wortartenklassifikationen Morphologie, Lemmatisierung und Wortartenklassifikationen Morphologieanalyse und Lexikonaufbau (1. Vorlesung) Übersicht Was ist Morphologie? Warum braucht man Morphologieanalyse in der CL? Was ist ein

Mehr

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis Abkürzungen... 9 Niveaustufentests... 10 Tipps & Tricks... 18 1 Der Artikel... 25 1.1 Der bestimmte Artikel... 25 1.2 Der unbestimmte Artikel... 27 2 Das Substantiv...

Mehr

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil

Mehr

Einführung in die Computerlinguistik. Morphologie II

Einführung in die Computerlinguistik. Morphologie II Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1

Mehr

Korpuslinguistik Annis 2 -Korpussuchtool Suchen in Falko

Korpuslinguistik Annis 2 -Korpussuchtool Suchen in Falko Korpuslinguistik Annis 2 -Korpussuchtool Suchen in Falko Marc Reznicek, Anke Lüdeling, Amir Zeldes, Hagen Hirschmann hirschhx@hu-berlin.de... und vielen anderen Mitarbeitern der HU-Korpuslinguistik Ziele

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Tagging: Wortarten. Wortarten - Hintergrund

Tagging: Wortarten. Wortarten - Hintergrund Tagging: Wortarten Machine Language Processing Heike Zinsmeister WS 2008/09 Wortarten - Hintergrund Kategorien Grundbegriffe eines Systems Philosophie: Kategorienlehre von Aristoteles als Systematik der

Mehr

Partikeln im gesprochenen Deutsch

Partikeln im gesprochenen Deutsch Germanistik Philipp Schaan Partikeln im gesprochenen Deutsch Bachelorarbeit Inhaltsverzeichnis 1. Einleitung... 2 2. Definition der Wortart 'Partikel'... 3 3. Der Weg der Wortart 'Partikel' in der Duden-Grammatik...

Mehr

Bochumer Linguistische Arbeitsberichte (Bla 2) Kategorisierungsprobleme bei der Wortarten- Annotation von Textkorpora

Bochumer Linguistische Arbeitsberichte (Bla 2) Kategorisierungsprobleme bei der Wortarten- Annotation von Textkorpora Bochumer Linguistische Arbeitsberichte (Bla 2) Kategorisierungsprobleme bei der Wortarten- Annotation von Textkorpora Katja Keßelmeier Anneli von Könemann 2 Bochumer Linguistische Arbeitsberichte Herausgeber:

Mehr

Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation

Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Semantische Annotation Lesarten annotieren (sense tagging) ein bisschen was zu Lesarten

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Wortarten und Tagsets. Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10

Wortarten und Tagsets. Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10 Wortarten und Tagsets Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10 Wortarten - Hintergrund Kategorien Grundbegriffe eines Systems Philosophie: Kategorienlehre von Aristoteles als Systematik der Grundformen

Mehr