Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation
|
|
- Walter Klein
- vor 7 Jahren
- Abrufe
Transkript
1 Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation
2 Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines Korpus
3 Ambiguität verschiedene Arten der Ambiguität (Mehrdeutigkeit) syntaktische lexikalische phonologische orthografische Mehrdeutigkeit tritt in echten Kommunikationssituationen sehr selten auf. Sprachwissenschaftliche Beispiele sind meist konstruiert.
4 Ambiguität Beispiel (1) ist ein typisches konstruiertes Beispiel. (1) Der Mann sieht den Jungen mit dem Teleskop. Beispiele (2) und (3) sind im echten Kontext sicher nicht mehrdeutig. (2) Klaus hat ein(en) Laster. (3) Klara isst im Garten.
5 Ambiguität Für Rechner gibt es kaum Strukturen, die nicht mehrdeutig sind. Grund: mangelnde Informationen über Semantik Wahrscheinlichkeit Weltwissen Kontext
6 Ambiguität (1) Diese Brause trinkt sie am Liebsten. (2) Die Mutter liebt die Tochter. (3a) Klaus hat lange Nudeln gegessen. (3b) Klaus hat lange Äpfel gegessen. Aufgrund reiner morpho-syntaktischer Informationen sind diese Sätze für Maschinen nicht disambiguierbar.
7 Motivation für Wortarten-Tagging explizite Annotierung von syntaktischen Informationen dient der maschinellen Bearbeitung z.b.: Suche in Korpora (für uns wichtig!) maschinelle Übersetzung weitere maschinelle Annotation z.b. Parsing z.b. morphologische Annotation
8 Motivation für Wortarten-Tagging Auflösung unterschiedlicher Funktion bei orthografischer Ambiguität (1) Ohne/KOUI den Applaus abzuwarten, ging der Künstler. (2) Ohne/APPR den Applaus ging der Künstler. Wortartentags disambiguieren (vereindeutigen) verschiedene Lesarten
9 Motivation für Wortarten-Tagging in einigen Fällen wird die Motivation für Wortarten-Tagging noch deutlicher Fragestellung: Welches zweier aufeinanderfolgender Adjektive im Dativ (mask./neut.) endet auf ``m? (1) in einem schönem großen Garten (2) in einem schönen großem Garten (3) in einem schönem großem Garten
10 Motivation für Wortarten-Tagging wenn nicht explizit vermerkt ist, welche Wortart ein Wort hat, kann man nur nach Buchstabenfolgen suchen Hier: ``Wort auf -en gefolgt von Wort auf em gefolgt von groß geschriebenem Wort Diese Suche unterscheidet nicht nach Wortarten Ergebnis auf folgender Folie zeigt viele nicht gewollte Resultate
11 Suchausdruck: [word="[a-z].+en"][word="[a-z].+em"][word="[a-z].+"] mit einem deutlich erhöhten gesundheitslichem Risiko. Sie seien. Für Deutschland nehmen außerdem Bundestagspräsidentin Rita Süssmuth, an. Es werden außerdem Projekte und Institutionen besucht wurde halboffiziell mit dessen mangelhaftem Französisch begründet. Ein gleichsam eine Schnittstelle zwischen reinem Klangstück und Diskurs., eine Welt zwischen enttäuschtem Sturm und Drang und zu Kunden in dessen angestammtem Versorgungsgebiet. Wirtschaftsminister Günter Nur wenige Jordanier trauen seinem Bruder und designierten Nachfolger, die Gratwanderung zwischen eigenem Umfeld und etablierten Machtstrukturen und Dorothea Schrade kommen diesem Bedürfnis nach. Seit Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen, weiter die Schere zwischen gewerkschaftlichem Forderungskatalog und Alltag in
12 Motivation für Wortarten-Tagging wenn man versucht die Treffermenge einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf -em gefolgt von groß geschriebenem Wort Ergebnis auf folgender Folie
13 [word="einem dem seinem ihrem diesem dem"][word="[a-z].+en"][word="[a-z].+em"][word="[a-z].+"] der Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen,
14 Motivation für Wortarten-Tagging Fazit zu ``weite Kriterien liefern zu viele Ergebnisse d.h. zu viele falsche Treffer zu ``enge Kriterien liefern zu wenige Ergebnisse d.h. zu viele richtige Treffer werden nicht gefunden
15 Motivation für Wortarten-Tagging Und mit Wortarten-Tags? Suchausdruck: [pos="adja" & word=".+en"][pos="adja" & word=".+em"] mit einem deutlich erhöhten gesundheitslichem Risiko. Sie Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen
16 Motivation für Wortarten-Tagging ohne Wortarten-Tags umfasst die Menge der Ergebnisse entweder alle richtigen Ergebnisse, aber auch viele falsche (Übergenerierung) nur richtige Ergebnisse, aber nicht alle richtigen (Untergenerierung)
17 Motivation für Wortarten-Tagging Übergenerierung Menge der gesuchten Strukturen Menge der Treffer
18 Motivation für Wortarten-Tagging Untergenerierung Menge der Treffer Menge der gesuchten Strukturen
19 Definition Wortarten-Tagging Wortarten-Tagging ist die Zuweisung von Wortarten-Kennungen (Tags) an Wortformen (Tokens) im Text ein Token ist eine typischerweise durch Leerzeichen abgegrenzte Buchstabenfolge im Text ein Token kommt also immer nur ``einmal vor
20 Definition Wortarten-Tagging John/NE Mack/NE trägt/vvfin seinen/pposat Spitznamen/NN "/$( das/art Messer/NN "/$( zu/appr Recht/NN./$. links Tokens rechts Tags zwei Tokens, ein Type
21 Tagsets Zuweisung der Wortarten-Tags erfolgt durch eine endliche Menge von Tags, die eine Wortart oder Unterwortart beschreiben diese Menge nennt man Tagsets Tagsets müssen Tags eindeutig definieren jedes Token definieren können Konventionen für Zweifelsfälle bereithalten
22 STTS einen Quasi-Standard beim Wortarten- Tagging stellt das STTS dar STTS = Stuttgart-Tübingen-Tagset das STTS umfasst in seiner ``kleinen Version 54 Tags das STTS wird in einer Tagset- Beschreibung (Guidelines) definiert
23 Hauptwortarten im STTS 1. Nomina (N) Hund, Katze, Maus, Peter 2. Verben (V) arbeiten, beten, sollen, sein 3. Artikel (ART) der, die, das, ein 4. Adjektive (ADJ) schön, blöd, töfte 5. Pronomina (P) er, sie, es, sich, irgendein 6. Kardinalzahlen (CARD) zwei, , III 7. Adverbien (ADV) sehr, üblicherweise 8. Konjunktionen (KO) und, oder, dass, weil 9. Adpositionen (AP) mit, ohne, an... entlang 10. Interjektionen (ITJ) oh weh, zapperlot 11. Partikeln (PTK) zu, wider, bitte
24 Kriterien für Definition von Tags Einteilung nach unterschiedlichen Kriterien distributionelle: über/appr die Straße die Straße entlang/appo morphologische: findet/vvfin, gefunden/vvpp semantische: Klaus/NE, Maus/NN Mischung der Kriterien kann zu unterschiedlichen Ergebnissen führen Einteilung ist theorieabhängig
25 Konventionen für Tagging Konventionen halten Vorgehen für strittige Fälle fest Sie müssen eindeutig sein intersubjektiv sein möglichst vollständig sein
26 Beispiele für Konventionen einige Wörter tragen Merkmale verschiedener Wortarten ins sich Konventionen legen eindeutige Annotierung fest (1) eine gute/adja Idee (2) Das ist das Gute/NN daran. (3) der angemalte/adja Zaun (4) Man hat den Zaun angemalt/vvpp.
27 Umsetzung der Konventionen Die korrekte händische Annotation eines Korpus erfordert die Einhaltung der Konventionen und folgender Regeln: Korpus wird zunächst unabhängig von zwei verschiedenen Annotatoren annotiert Ergebnisse werden gegeneinander abgeglichen und Inter Annotator Agreement gemessen (d.i. die Übereistimmung zwischen den Entscheidungen der unterschiedlichen Annotatoren) erst bei hinreichender Übereinstimmung wird nur noch von einem Linguisten annotiert
28
29 Anwendbarkeit Für ein Tagset müssen immer die Argumente des linguistisch Wünschenswerten gegen die des technisch Machbaren abgewogen werden. hohes Inter Annotator Agreement muss erreichbar sein Einteilung der Klassen muss automatische Annotation mit niedriger Fehlerrate ermöglichen, d.h. Klassen müssen auch automatisch klar gegeneinander abgrenzbar sein Klassen dürfen nicht zu selten auftreten, da sonst zu geringe Trainingsdatenmenge für automatisches Lernen
30 Beispiel für Kompromiss Ein Standardbeispiel für einen Kompromiss ist das Tag ADJD im Standard-Tagset STTS. Wörter, die sowohl als prädikatives Adjektiv als auch als Adverb fungieren können, werden ADJD getaggt - losgelöst von ihrer jeweiligen Verwendung. (1) Maria singt schön/adjd. --> adverbial (2) Maria ist schön/adjd. --> prädikativ Eine Aufteilung der beiden Lesarten wäre sowohl mit stochastischen als auch mit regelbasierten Verfahren nicht möglich.
31 Automatisches Tagging Es gibt zwei Arten des automatischen Taggings: regelbasiertes Tagging benötigt (handgeschriebene) Grammatik stochastisches Tagging benötigt (handannotiertes) Trainings-Korpus
32 Regelbasiertes Tagging typischerweise zwei Ebenen für regelbasierte Tagger Lexikon-Nachschlag weist Ambiguitätsklasse zu Grammatik-Regeln disambiguieren Eine Ambiguitätsklasse ist die Menge aller Tags, die ein Wort losgelöst vom Kontext haben kann.
33 Regelbasiertes Tagging Die/ART-PRELS-PDS Hose/NN sitzt/vvfin schlecht/adjd./$. ``Constraints schränken die Lesarten ein, z.b.: kein Relativpronomen am Satzanfang kein (substituierendes) Demonstrativpronomen vor Nomen
34 Regelbasiertes Tagging Probleme regelbasierten Taggings: Lexikon ist nie vollständig es gibt kaum echte Constraints Interaktion der Regeln schlecht überschaubar Selten/ADJD trinkt/vvfin die/art-prels- PDS Milch/NN.
35 Stochastisches Tagging benötigt nur getaggtes Korpus als Trainingsdaten berechnet Übergangswahrscheinlichkeiten weist wahrscheinlichstes Tag zu kann auch Rangfolge zuweisen
36 Stochastisches Tagging zwei Arten von Wahrscheinlichkeiten 1. Wahrscheinlichkeit für Tag in Bezug auf vorausgehende(s) Tag(s) (distributionell) 2. Wahrscheinlichkeit für Wort in Bezug auf Tag (lexikalisch) P (Tag vorhergehende(s) Tag(s)) * (Wort Tag)
37 Stochastisches Tagging (1) Ich/PPER bügle/vvfin meine/pposat-vvfin Hose/NN./\$. (2) Ich/PPER meine/pposat-vvfin,\$. das/pds ist/vafin falsch/adjd.\$. Es wird die Wahrscheinlichkeit, dass VVFIN oder PPOSAT `meine' ist, multipliziert mit der Wahrscheinlichkeit, dass VVFIN oder PPOSAT entweder VVFIN (1) oder PPER (2) folgen. Höhere lexikalische Wahrscheinlichkeit von `meine' für PPOSAT wird in (2) durch höhere distributionelle Wahrscheinlichkeit von VVFIN nach PPER ausgeglichen.
38 Probleme stochastischen Taggings Wahrscheinlichkeit bedeutet nicht unbedingt Sicherheit Tagger sehr abhängig von Trainingskorpus Entscheidungen typischerweise auf engen Kontext begrenzt Entscheidungen des Taggers nicht nachvollziehbar
39 Wortarten-Tagging Besondere Relevanz für Korpuslinguistik Korpora meist nicht hand-annotiert daher können Tags fehlerhaft sein dies muss in Interpretation der Suchergebnisse berücksichtigt werden
Tagger for German. Online BRILL-Tagger für das Deutsche
Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrEinführung in die Computerlinguistik
Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen
MehrAnnotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrLinguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets
Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrVorlaugeGuidelinesfurdasTaggingdeutscherTextcorpora AnneSchiller,SimoneTeufel,ChristineStockert mitstts InstitutfurmaschinelleSprachverarbeitung UniversitatStuttgart SeminarfurSprachwissenschaft UniversitatTubingen
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table
MehrEmpirie II: Wortarten im Kontext (Tagging)
G. Schneider: Morphologieanalyse und Lexikonaufbau, SS 2000 Page 1 Empirie II: Wortarten im Kontext (Tagging) Morphologieanalyse und Lexikonaufbau (12. Vorlesung) Dozent: Gerold Schneider Übersicht Was
MehrAlgorithmen und Formale Sprachen
Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und
MehrKI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk
Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am 23.10.2006 Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk Übersicht Aufgabenstellung
MehrPhonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München
Phonetische Lexika Part-of-Speech Tagging Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de Inhalt Parts of Speech POS-Tagging-Probleme: OOV, Ambiguitäten Regelbasierte Tagger Markov-Tagger
MehrSprachsynthese: Part-of-Speech-Tagging
Sprachsynthese: Part-of-Speech-Tagging Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 29. Oktober 2014 Inhalt POS- Markov- Transformationsbasiertes
MehrModifikationsvorschläge zu STTS Stand der bisherigen Diskussion
Modifikationsvorschläge zu STTS Stand der bisherigen Diskussion Heike Zinsmeister STTS-Workshop, 24. September 2012 0/18 Eine kleine Chronik Vorläufer - ELWIS (Helmut Feldweg, Christine Thielen, Tübingen),
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrErweiterung des STTS für gesprochene Sprache
Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart
MehrPsycholinguistik. p. 1/28
Psycholinguistik p. 1/28 Psycholinguistik: Allgemeine Fragen Wie und wo wird die Sprache im Gehirn verarbeitet? Sprachentwicklung 1: Wie erwerben Kinder ihre Muttersprache (Erstpracherwerb)? Sprachentwicklung
MehrAuswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch
Christiane Pankow Helena Pettersson Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch 1. Einleitung In den letzten Jahren ist die Erstellung
MehrDeutsch Grammatik Sekundarstufe 1 Die 5 Wortarten
Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Theorie und Klassenübungen (mit Lösungen) Geeignet für 8. bis 10. Schuljahr MSV- Unterricht ILF- Unterricht Als Skript verwendbar Mit Kommentaren und Erklärungen
MehrDWDS: Hilfe Kurzübersicht
DWDS: Hilfe Kurzübersicht (auch online unter http://www.dwds.de/?corpus=1&opt=hilfe&qu) Voreinstellungen Lemmasuche: Suchwörter werden automatisch zum Lemma expandiert. Vorsicht: befindet sich das Suchwort
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrKorpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
MehrDie Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.
Die Corpus Workbench und ihre Syntax Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die IMS Open Corpus Workbench (CWB) Mächtige Konkordanz- und Korpusanalyse-Software
MehrNutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner
Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV September 2015 David Stoppel, Franziska Wallner Einleitung Die Lemmalisten liefern Häufigkeitsangaben für Wörter der deutschen gesprochenen
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrPROBLEME DER WORTARTEN-KLASSIFIKATION
PROBLEME DER WORTARTEN-KLASSIFIKATION 1. Vollständigkeit der Klassifikation: Werden alle Ausdrücke erfasst? Beispielsweise wie und als in Er verhält sich wie ein Kind, Sie als Lehrerin (Adjunktive, IdS;
MehrI. SEMIOTISCHE UND LINGUISTISCHE GRUNDBEGRIFFE. Kommunikation = wichtige Form sozialer Interaktion:
Herkner / Kapitel 3 / Teil 1 140 3. KAPITEL: SPRACHE UND WISSEN I. SEMIOTISCHE UND LINGUISTISCHE GRUNDBEGRIFFE Kommunikation = wichtige Form sozialer Interaktion: verbale Kommunikation mit Hilfe von Sprache
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Syntax. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Syntax Wiederholung Aufgabe 1 Was ist Syntax und womit beschäftigt sie sich? 3 Aufgabe 1 Was ist Syntax und womit beschäftigt
MehrSATZGLIEDER UND WORTARTEN
SATZGLIEDER UND WORTARTEN 1. SATZGLIEDER Was ist ein Satzglied? Ein Satzglied ist ein Bestandteil eines Satzes, welches nur als ganzes verschoben werden kann. Beispiel: Hans schreibt einen Brief an den
MehrInhalt.
Inhalt EINLEITUNG II TEIL A - THEORETISCHE ASPEKTE 13 GRAMMATIK 13 Allgemeines 13 Die sprachlichen Ebenen 15 MORPHOLOGIE 17 Grundbegriffe der Morphologie 17 Gliederung der Morpheme 18 Basis- (Grund-) oder
MehrMorphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005
Morphologie, Lemmatisierung und Wortartenklassifikationen Morphologieanalyse und Lexikonaufbau (1. Vorlesung) Übersicht Was ist Morphologie? Warum braucht man Morphologieanalyse in der CL? Was ist ein
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrANNIS Quickstart
Suche in ANNIS Bevor man suchen kann, muss das gewünschte Korpus in der Korpusliste ausgewählt werden (z.b. das Teilkorpus mo (monoethnisches Ergänzungskorpus) oder KiDKo mu (multiethnisches Korpus). Danach
MehrEinführung in die Programmiertechnik
Einführung in die Programmiertechnik Formale Beschreibung von Programmiersprachen Lexikalische Regeln Definition von Wörtern (Lexem, Token) Gruppierung von Zeichen Lexikalische Kategorien: Klassen ähnlicher
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrMathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur
Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.
Mehr3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische...
Inhaltsverzeichnis 1. Mauritius und das Kreolische auf Mauritius... 13 1.1 Landeskundlicher Teil ein Vorwort... 13 1.2 Zu Geographie, Bevölkerungsgruppen und Sprachen auf Mauritius... 14 1.3 Definition:
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
MehrProbabilistische kontextfreie Grammatiken
Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören
Mehr1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -
1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik
Mehr1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen - 1 -
1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen I.2. I.2. Grundlagen von von Programmiersprachen. - 1 - 1. Der Begriff Informatik "Informatik" = Kunstwort aus Information und Mathematik
MehrTnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrWorteinbettung als semantisches Feature in der argumentativen Analyse
Worteinbettung als semantisches Feature in der argumentativen Analyse Bachelorverteidigung Kevin Lang 22.03.2016 Übersicht Was ist die argumentative Analyse? Worteinbettung und Word2Vec Resultate Diskussion
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann hirschhx@hu-berlin.de... und vielen anderen Mitarbeitern der HU-Korpuslinguistik
MehrKap.1: Was ist Wissen? 1.1 Begriff des Wissens (1)
Kap.1: Was ist Wissen? 1.1 Begriff des Wissens (1) Zusammenfassung: Diskutiert wurde: A) Wissensbegriff in verschiedenen Wissenschaften B) Daten Information Wissen Ebenen: (E1) Übermittlung physikalischer
MehrToken, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging)
Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistikbasiertes Tagging) Morphologieanalyse und Lexikonaufbau (6. Vorlesung) Dozent: Gerold Schneider Übersicht Was ist ein Token? Was
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrLösungsvorschlag für das Übungsblatt 4. Aufgabe 1.
Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um
MehrWort. nicht flektierbar. flektierbar. Satzgliedwert. ohne Satzwert. mit Fügteilcharakter. ohne. Fügteilcharakter
Wort flektierbar nicht flektierbar mit Satzwert ohne Satzwert mit Satzgliedwert ohne Satzgliedwert mit Fügteilcharakter ohne Fügteilcharakter mit Kasusforderung ohne Kasusforderung Modalwort Adverb Präposition
MehrComputerlinguistik: Ein Überblick
11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik
MehrDeutsche Grammatik WS 14/15. Kerstin Schwabe
Deutsche Grammatik WS 14/15 Kerstin Schwabe Generelle Information Dr. Kerstin Schwabe Zentrum für Allgemeine Sprachwissenschaft Schützenstraße 18, R. 432 10117 Berlin Tel.: 20192410 E-mail: schwabe@zas.gwz-berlin.de
MehrDiskursmarker aus korpuslinguistischer Sicht POS-Annotation von Diskursmarkern in FOLK. Swantje Westpfahl 1
Erschienen in: Blühdorn, Hardarik/Deppermann, Arnulf/Helmer, Henrike/Spranz-Fogasy, Thomas (Hrsg.): Diskursmarker im Deutschen. Reflexionen und Analysen. - Göttingen: Verlag für Gesprächsforschung, 2017.
MehrTutorial II: Corpus Methods for Historical Linguistics
Tutorial II: Corpus Methods for Historical Linguistics Formal Diachronics Semantics 2016 University of Konstanz Christin Schätzle and Gerold Schneider firstname.lastname@uni-konstanz.de 13.09.2016 1 Regular
MehrKorpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrEinführung in die Informatik I (autip)
Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis
MehrHausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010
Universität zu Köln Institut für Linguistik Abteilung Sprachliche Informationsverarbeitung Hausarbeit Seminar: Computerlinguistik II Dozent: Jürgen Hermes M.A. Sommersemester 2010 Thema: Part-of-Speech
MehrVertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind
Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:
MehrPÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache
MASARYK - UNIVERSITÄT IN BRNO PÄDAGOGISCHE FAKULTÄT Lehrstuhl für deutsche Sprache und Literatur Einführung in die Morphologie der deutschen Sprache Studienmaterial für die Lehramtstudenten PhDr. Olga
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Das Grammatikfundament: Wortarten Das komplette Material finden Sie hier: School-Scout.de Uta Livonius Das Grammatikfundament: Wortarten
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrGRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE
RÄUME - GRENZEN - ÜBERGÄNGE: 5. Kongress der Internationalen Gesellschaft für Dialektologie des Deutschen 10. - 12. September 2015 Universität Luxemburg GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET
MehrCOSMAS II Corpus Search Management and Analysis System
COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die
MehrRAW TEXT TOKENIZATION + PRE - TAGGING LEXICAL RESSOURCES REFERENCE CORPUS AMBIGUOUSLY ANNOTATED TEXT TRANSITION TABLES + WORD TAG PROBAB.
Ansätze des Tagging Ein Seminarreferat, vorgestellt von Alexander Valet, Christian Pretzsch und Vanessa Micelli im Rahmen des Hauptseminars Parsing bei Dr. Karin Haenelt im SS 2003 an der Ruprecht-Karls
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische
MehrMorphologie, Lemmatisierung und Wortartenklassifikationen
Morphologie, Lemmatisierung und Wortartenklassifikationen Morphologieanalyse und Lexikonaufbau (1. Vorlesung) Übersicht Was ist Morphologie? Warum braucht man Morphologieanalyse in der CL? Was ist ein
MehrInhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis
Inhaltsverzeichnis Inhaltsverzeichnis Abkürzungen... 9 Niveaustufentests... 10 Tipps & Tricks... 18 1 Der Artikel... 25 1.1 Der bestimmte Artikel... 25 1.2 Der unbestimmte Artikel... 27 2 Das Substantiv...
MehrKL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie
KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil
MehrEinführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
MehrKorpuslinguistik Annis 2 -Korpussuchtool Suchen in Falko
Korpuslinguistik Annis 2 -Korpussuchtool Suchen in Falko Marc Reznicek, Anke Lüdeling, Amir Zeldes, Hagen Hirschmann hirschhx@hu-berlin.de... und vielen anderen Mitarbeitern der HU-Korpuslinguistik Ziele
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrTagging: Wortarten. Wortarten - Hintergrund
Tagging: Wortarten Machine Language Processing Heike Zinsmeister WS 2008/09 Wortarten - Hintergrund Kategorien Grundbegriffe eines Systems Philosophie: Kategorienlehre von Aristoteles als Systematik der
MehrPartikeln im gesprochenen Deutsch
Germanistik Philipp Schaan Partikeln im gesprochenen Deutsch Bachelorarbeit Inhaltsverzeichnis 1. Einleitung... 2 2. Definition der Wortart 'Partikel'... 3 3. Der Weg der Wortart 'Partikel' in der Duden-Grammatik...
MehrBochumer Linguistische Arbeitsberichte (Bla 2) Kategorisierungsprobleme bei der Wortarten- Annotation von Textkorpora
Bochumer Linguistische Arbeitsberichte (Bla 2) Kategorisierungsprobleme bei der Wortarten- Annotation von Textkorpora Katja Keßelmeier Anneli von Könemann 2 Bochumer Linguistische Arbeitsberichte Herausgeber:
MehrSemantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Semantische Annotation Lesarten annotieren (sense tagging) ein bisschen was zu Lesarten
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrWortarten und Tagsets. Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10
Wortarten und Tagsets Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10 Wortarten - Hintergrund Kategorien Grundbegriffe eines Systems Philosophie: Kategorienlehre von Aristoteles als Systematik der Grundformen
Mehr