Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation
|
|
- Katharina Hofmeister
- vor 7 Jahren
- Abrufe
Transkript
1 Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung ist (meistens) tokenbasiert, dh. jedes Token erhält einen Tag weitere tokenbasierte Tags könnten sich z.b. auf Betonungmuster, Bedeutung, Konzept etc. beziehen en, die sich auf kleinere Einheiten beziehen: Morpheme, phonetische en etc. en, die sich auf größere Einheiten beziehen: syntaktische en (Phrasen, Sätze), Diskursstrukturen, Mehrwortlexeme etc.
2 Syntaktische : Definitionen Festlegung eines Tagsets Knotenlabel Kantenlabel Festlegung von grammatischen Beziehungen NB Festlegung eines mathematischen Modells (Graph, Baum etc.) NB: syntaktische Theorien (stark vereinfacht!) es gibt viele verschiedene Syntaxtheorien mit unterschiedlichen Zielsetzungen, Grundannahmen, Beschreibungsmitteln etc. syntaktische Theorien sind Modelle man versucht, die syntaktischen (Oberflächen)strukturen komplexer Ausdrücke möglichst plausibel und konsistent darzustellen NB: syntaktische Theorien (stark vereinfacht!) 'traditionelle' Grammatik Ziel: Beschreibung der Oberflächenstrukturen, 'traditionelle' (aus der lateinischen Grammatik stammende) Begriffe generative Grammatik Ziel: zugrundeliegendes produktives Regelsystem soll beschrieben werden NB: syntaktische Theorien (stark vereinfacht!) generative Theorien können regelbasiert sein (GB) können constraintbasiert sein (HPSG) können modular aufgebaut sein (GB, LFG) können zeichenbasiert aufgebaut sein (HPSG)...
3 Syntaktische : Verfahren für jedes gewünschte syntaktische Ergebnis gibt es unterschiedliche sverfahren manuelle /semi-automatische ressourcenintensiv fehleranfällig (daher oft doppelte dann sehr hoher Standard) eindeutig Syntaktische : Verfahren automatische (Parsing oder Chunking) schnell, wenig ressourcenintensiv, hohe Ambiguität, fehleranfällig regelbasiert, constraintbasiert, statistisch, hybrid Baumbank (tree bank) Korpus, das mit syntaktischer Struktur annotiert ist (meist Bäume, aber evtl. auch Syntaxgraphen wie bei TIGER) dabei kann die Struktur für ganze Sätze vergeben werden oder auch nur für Teile, wie zb Nominalphrasen Wozu eine Baumbank? Suche nach bestimmten syntaktischen Strukturen (zb geschachtelten Relativsätzen) als Beispiele für quantitative Untersuchungen zur Lexikonentwicklung (Valenzinformationen, Subkategorierungsinformationen etc.) Trainingsmaterial für statistische Parser
4 Qualitätsmerkmale einer BB allgemein Korpussprache Korpusumfang Verfügbarkeit Qualität der Vorverarbeitung für Baumbanken zusätzlich Detailliertheit der syntaktischen Kategorien und en (funktionale Kategorien?, Koreferenzen?) stiefe Baumbanken für s Deutsche NeGra (Universität Saarbrücken) Zeitungstext Verbmobil (Universität Tübingen) Terminabsprachedialoge TIGER (Universität Stuttgart, Universität Saarbrücken, Universität Potsdam) Zeitungstext Nachfolgeprojekt von NeGra Ein Beispiel: TIGER Ziel: von ca Sätzen Zeitungstext (Frankfurter Rundschau, alle Domänen) mit TIGER-Graphstrukturen (TIGER Description Language) 1. TIGER-Korpus entstanden im Projekt TIGER (1999 heute) beteiligte Institute CoLi Saarbrücken (Uszkoreit) IMS Stuttgart (Rohrer) Germanistik Potsdam (Eisenberg) URL:
5 TIGER-Korpus Zeitungstext (Frankfurter Rundschau) baut auf NEGRA-Korpus auf mehr Sätze detailliertere Version 1 veröffentlicht Juli Sätze ( Tokens) TIGER-Korpus: sebenen Wörter/Tokens annotiert mit Wortart (POS), nach STTS Morphologie, Lemma (in Arbeit) Syntax Kategorie (Knoten) Funktion (Kantenlabel) TIGER-Korpus: Syntax- (möglichst) theorieunabhängig kreuzende Kanten für nicht-lokale Abhängigkeiten (keine Spuren) NPs: keine Kopfauszeichnung (D vs. N als Kopf) sekundäre Kanten für Ellipsen etc. platzsparend flache Strukturen (keine unären Knoten, flache PP) virtueller Wurzelknoten Bsp: NPs, flache Strukturen
6 Bsp: kreuzende Kanten (Topikalisierung) Bsp: kreuzende Kanten (Extraposition) Bsp: sekundäre Kanten (Subjektslücke) Bsp: sekundäre Kanten (Ellipse+Gapping)
7 semi-automatische mit 1. Tool annotate, statistisch (Saarbrücken) 2. LFG-Grammatik, symbolisch (IMS Stuttgart) Konsistenzsicherung 2-malige, voneinander unabhängige (ca. 2x 50 sec/satz; Satz mit Ø 17,8 Tokens) anschließend Vergleich (> 2 min/satz) via annotate 1. POS-Tagging statistischer TnT-Tagger schlägt wahrscheinlichsten POS-Tag vor korrekte Tags: 84% 2. Phrasen/Konstituenten syntaktische Struktur wird sukzessive erstellt, statistischer Parser macht Vorschläge korrekte Phrasen: 71% Abfragesprachen man braucht eine Abfragesprache, die Baum- oder Graphenstrukturen durchsuchen kann (Präzedenz, Dominanz etc.) zb TIGERSearch (Universität Stuttgart) TIGERSearch kann Bäume und Syntaxgraphen darstellen und durchsuchen textuelle und graphische Abfrage möglich Baumbanken-Zusammenfassung Baumbanken sind eine wichtige Ressource (leider sehr 'teuer', daher gibt's noch nicht so viele) man muss das zugrundeliegende Grammatikmodell kennen man muss die sweise kennen man braucht eine eigene Abfragesprache
8 Warum phonetische/ phonologische linguistisch Überprüfung von syntaktischen/semantischen etc. Hypothesen (zb: Unterschied von depiktiven und resultativen Strukturen, Einfluss von Hutkontur auf Quantorenskopus, Fokus, Kontrast,...) Sprachvariation: Dialektforschung, Fremdwörter innerhalb einer Sprache, Akzent,... Warum phonetische/ phonologische linguistisch phonetisch/phonologische Forschung: phonologische Phrasen, Merkmale von Stress Forschung an Phänomenen gesprochener Sprache: Häsitationen, Selbstverbesserungen, Unterbrechungen, Wortschatz, Strukturunterschiede zu geschriebener Sprache,... Warum phonetische/ phonologische computerlinguistisch Trainingsmaterial für Spracherkennung (Automatic Speech Recognition, ASR) und Synthese (Text-to- Speech, TTS) als Grundlage von komplexen computerlinguistischen Systemen (Dialogsysteme, Maschinelle Übersetzung etc.) korpuslinguistisch: Hilfe bei der Desambiguierung von ambigen Tags, Strukturen etc. (Tenor, darauf, wir müssen noch einen Termin ausmachen) Phonetische/Phonologische von Sprachkorpora Ausgangspunkt: Sprachsignal Transkription in graphemische Ausgabe phonetische phonetische Transkription phonetische von Prosodie phonologische phonologische Repräsentation von Intonation phonologische Phrasen
9 Einschub: verschiedene Ebenen Man sieht, dass man hier verschiedene linguistische sebenen nur getrennt annotieren kann, sie dann aber einander zuordnen möchte stand-off- (verschiedene XML-Dateien, die durch eine Zeitachse miteinander verbunden sind) phonetische Transkription Das Sprachsignal muss in eine graphemische Repräsentation umgesetzt werden. Das geschieht entweder manuell, semi-automatisch oder ganz automatisch (statistische Verfahren, HMM, siehe zb Knill & Young 1997). Die Aufgabe ist schwierig Variation zwischen SprecherInnen/bei einer Sprecherin verbundene Sprache: Segmentierung schwierig man muss zwischen mehreren Hypothesen auswählen phonetische Transkription graphemisch orthographisch phonetisch: IPA-Symbole, schweirig darzustellen, daher SAMPA phonetische von Prosodie Frequenz (f0-kontur) Lautstärke Tonhöhe Pausen
10 Phonologische Repräsentation von Intonation suprasegmentale viele Schemata, abhängig von der jeweiligen phonologischen Theorie zb: ToBI (Tone and Break Indices), GToBI (German Tone and Break Indices) (folgende Abbildung aus Tonveränderungen werden markiert phonologische manuell: schwierig, Differenzen zwischen AnnotatorInnen, zt sehr subtile Unterschiede typische Fehler: AnnotatorInnen verbessern Fehler im Sprachsignal, Satzzeichen daher besser (weil reproduzierbar): automatische Dialoge besonderes Problem: überlappende Sprache von mehreren SprecherInnen auch hier wieder: stand-off mit Zeitachse FU Prof. Dittmar, HU Patrick Grommes
11 Literatur Knill, K. & Young, S. (1997) Hidden Markov Models in Speech and Language Processing. In: Young, S. & Bloothooft, G. (eds) Corpus-Based Methods in Language and Speech Processing für GToBI: für SAMPA: Literatur Dank an Stefanie Dipper für Folien zu TIGER Lezius, Wolfgang (2001) Baumbanken. In: Carstensen et al. (eds) Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Verlag, Heidelberg, zu TIGER: & die dort enthaltenen Beschreibungen König & Lezius The TIGER language Smith A Brief Introduction to the TIGER Sample Corpus
Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...
Lemmatisierung Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 zum Lemmatisieren braucht man also ein Lexikon, in dem die Lemmata mit ihrer Flexionsklasse
MehrGliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute
Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin
MehrComputerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung
MehrÜberblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrElektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrWortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin
Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich
MehrOrganisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster
Organisatorisches: Poster Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 Erstellung eines wissenschaftlichen Posters in einer Gruppe (< 4 Personen)
MehrSpracherkennung und Sprachsynthese
Spracherkennung und Sprachsynthese Einführung in die Computerlinguistik Sommersemester 2012 Peter Kolb Spracherkennung / -synthese Spracherkennung (automatic speech recognition, ASR) Sprachsynthese (text-to-speech,
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?
MehrÜberblick. Hauptseminar: Einführung in die Korpuslinguistik. Wiederholung Produktivität. Wiederholung Produktivität. Fragen
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Überblick Wiederholung Produktivität Registervariation multidimensionale Analyse Register
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde
MehrLösungsvorschlag für das Übungsblatt 8. Aufgabe1.
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte
MehrÜberblick. Linguistische Grundlagen für die maschinelle Sprachverarbeitung. Was ist Linguistik? Linguistik. Generative Linguistik
Überblick Linguistische Grundlagen für die maschinelle Sprachverarbeitung Anke Lüdeling Institut für deutsche Sprache und Linguistik anke.luedeling@rz.hu-berlin.de Was ist Linguistik? linguistische Beschreibungsebenen
MehrSprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010
Sprachproduktion Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010 Sprachliche Zentren im Gehirn SSSSensorische Funktionen Motorische Funktionen Sprachliche Zentren im Gehirn Generieren
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrSyntax und Phonologie: Prosodische Phrasen
Morphologie und Syntax (BA) Syntax und Phonologie: Prosodische Phrasen PD Dr. Ralf Vogel Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld, SoSe 2007 Ralf.Vogel@Uni-Bielefeld.de 28.6.2007
MehrHS: Korpuslinguistische Behandlung von Phänomenen des Deutschen
HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei
MehrÄquivokationen. In der Spracherkennung. Michael Baumann Seminar (mit Bachelorarbeit)
Äquivokationen In der Spracherkennung Michael Baumann 532 0225336 michael.baumann@student.tuwien.ac.at Seminar (mit Bachelorarbeit) Inhalt Einführung Äquivokation, Ambiguität, Prosodie Signale Beispiele:
MehrVorlesung: Einführung in die Computerlinguistik. VL: Einführung in die Computerlinguistik
Wintersemester 98/99 Vorlesung: Einführung in die Computerlinguistik Teil 1: Forschungsgegenstand und Nachbarwissenschaften Hans Uszkoreit Übersicht des ersten Teils Aufgaben und Einordnung des Faches
MehrPROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES
Ausgangsfrage PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Irina Gossmann Carine Dombou 9. Juli 2007 INHALT Ausgangsfrage 1 AUSGANGSFRAGE 2 SYNTAX DES DEUTSCHEN + NEGRA 3 PROBABILISTISCHE
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrGrundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10
Grundlagen empirischer Forschung Korpuslinguistik Heike Zinsmeister WS 2009/0 Grundlagen Vorbereitung einer empirischen Studie Allgemeine Beschreibung des zu untersuchenden Phänomens Literaturstudien Erkundigungen
MehrGesprochenes Deutsch
Gesprochenes Deutsch Eine Einführung von Johannes Schwitalla ERICH SCHMIDT VERLAG 1. Für wen das Buch geschrieben ist und was man damit anfangen kann... 9 2. Was ist gesprochene Sprache?...14 2.1. Gesprochene
Mehrfsq Ein Abfragesystem für syntaktisch annotierte Baumbanken
fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken SFB 441, Universität Tübingen Syntaktisch annotierte Baumbanken Ursprünglich: Morphosyntaktische Tags (POS) Anreicherung mit syntaktischen Informationen
MehrLinguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Linguistische Aufbereitung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.01.2011 Linguistische Aufbereitung Es war einmal eine kleine Hexe, die war erst einhundertsiebenundzwanzig Jahre alt,
MehrErkennung und Erzeugung gesprochener Sprache
Erkennung und Erzeugung gesprochener Sprache Sebastian Pado Einführung in die Computerlinguistik 2004/2005 1 Einführung Viele computerlinguistische Anwendungen gehen von textbasierter Ein/Ausgabe aus (I.a.)
MehrLinguistische Grundlagen für die maschinelle Sprachverarbeitung
Linguistische Grundlagen für die maschinelle Sprachverarbeitung Anke Lüdeling Institut für deutsche Sprache und Linguistik anke.luedeling@rz.hu berlin.de Überblick Was ist Linguistik? linguistische Beschreibungsebenen
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrINFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
MehrErweiterung des STTS für gesprochene Sprache
Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart
MehrAusgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH
Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Offene Fragen Wie wird der Imperativ in LFG analysiert? Unterschiede zwischen LFG und HPSG? 2
Mehr2 Sprachliche Einheiten
2 Sprachliche Einheiten Inhalt Semiotische Begriffe Wörter Wortbestandteile Wortzusammensetzungen Wortgruppen Text und Dialog Wort- und Satzbedeutung 2.1 Semiotische Begriffe Semiotische Begriffe Semiotik
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrWortstellung nominaler Elemente im Mittelfeld
Wortstellung nominaler Elemente im Mittelfeld Untersuchung zur Stellung nominaler Elemente im deutschen Mittelfeld - Vortrag am 04.02.2004 - von: Olga Krasavina Stefan Träger Robert Lange Elena Briskina
MehrDer VITERBI-Algorithmus
Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des
Mehr. How Complex are Complex Predicates? K. Maiterth, A. Domberg. Seminar: Komplexe Verben im Germanischen Universität Leipzig Problem..
How Complex are Complex Predicates? K Maiterth, A Domberg Seminar: Komplexe Verben im Germanischen Universität Leipzig 21052012 Inhalt 1 Verbcluster im Deutschen Komplexer Kopf VP-Komplementierung 2 Haiders
MehrAutomatentheorie und formale Sprachen
Automatentheorie und formale Sprachen Wiebke Petersen Wiebke Petersen Automatentheorie und formale Sprachen - WiSe12/13 1 Seminarplan Lektüre: Theoretische Grundlagen der Informatik, Rolf Socher, 2008
MehrEine nebenläufige Syntax-Semantik-Schnittstelle für Dependenzgrammatik 1
Eine nebenläufige Syntax-Semantik-Schnittstelle für Dependenzgrammatik Ralph Debusmann 1. Diplomarbeit: TDG - ein deklarativer Grammatikformalismus für Dependenzgrammatik 2. Forschungsvorhaben: eine nebenläufige
MehrCharts. Motivation. Grundfrage. Chart als Graph
Charts Motivation Übersicht Chart bzw. Well-Formed Substring Table (WFST) Als azyklischer Graph, Tabelle und Relation Kantenbeschriftungen Kategorien: WFST Regeln: Passive Charts Regelhyposen: Aktive Charts
MehrEinführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig
Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme
MehrInterdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht
MehrComputerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Morphologie Wort Morphem Allomorph Sprachtypologie anhand
MehrComputerlinguistik: Ein Überblick
11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik
MehrSprachsynthese und SSML
Sprachsynthese und SSML HS Dialogsysteme und VoiceXML, 11. Januar 2005 Dozenten: Prof. Klaus Schulz, Christoph Ringlstetter Referentin: Joanna Rymarska Übersicht Was bedeutet Sprachsynthese? Ihre Rolle
MehrErkennung und Erzeugung gesprochener Sprache
Erkennung und Erzeugung gesprochener Sprache 8.11.2005 Sebastian Pado Einführung in die Computerlinguistik 2005/2006 M. Pinkal / S. Pado UdS 1 Einführung Viele computerlinguistische Anwendungen gehen von
MehrProbabilistische kontextfreie Grammatiken
Probabilistische kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 08. Dezember 2015 Let s play a game Ich gebe Ihnen ein Nichtterminalsymbol. S, NP, VP, PP, oder POS-Tag
MehrViterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes
Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28
Mehr! Die Idee Kombination von Informatik und einem anderen Fach
Computerlinguistik Integriertes Anwendungsfach im B.Sc.Studiengang Department Informatik / Universität Hamburg! Wie funktioniert das integrierte Anwendungsfach Computerlinguistik (organisatorisch)?! Beziehungen
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Organisatorisches Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrWiederholung: Linguistische Daten. HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen. Organisatorisches. Wiederholung: Korpusdaten
HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen Anke Lüdeling WS 2003/2004 Wiederholung: Linguistische Daten linguistische Fragestellung (eingebettet in eine Theorie oder ein Modell) dafür
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:
MehrSprache beginnt ohne Worte. Vorsprachliche Entwicklung und die Bedeutung der frühen Elternarbeit
Sprache beginnt ohne Worte Vorsprachliche Entwicklung und die Bedeutung der frühen Elternarbeit Grundeigenschaften menschlicher Sprache gesprochene Sprache ist akustisch vermittelt kleine Zahl von Lauten
MehrSprachsynthese - ein Überblick
Sprachsynthese - ein Überblick Florian Schiel Florian F Schiel: Sprachsynthese - Übersicht WS 05/06 1 Definition: Produktion von Sprache mit technischen Mitteln Gegensatz: Synthese vs. Wiedergabe (Übergang
MehrAusgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH
Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Übersicht Themenbereiche: 1. Erstellung und Standardisierung von Ressourcen für die Maschinelle
MehrComputational Prosody: Symbolische Beschreibung von Intonationskonturen. Uwe D. Reichel IPSK, LMU München
Computational Prosody: Symbolische Beschreibung von Intonationskonturen Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de Inhalt Tonsequenzansatz Pierrehumbert (1980) Generierung der Intonationskontur
MehrDie Form der Intona.on: Das AM Modell. Jonathan Harrington
Die Form der Intona.on: Das AM Modell Jonathan Harrington Das Autosegmentelle- Metrische (A- M) Modell der Intona.on: Haupteigenscha>en Bruce (1977), Swedish Word Accents in Sentence Perspec2ve, Gleerup,
Mehr8 Fakultät für Philologie
8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene
MehrProseminar, wozu? Proseminar, wozu? Proseminar, wozu? Verarbeitung gesprochener Sprache
Proseminar, wozu? Verarbeitung gesprochener Sprache Proseminar Wolfgang Menzel menzel@informatik.uni-hamburg.de Arbeitsbereich Natürlichsprachliche Systeme Fachbereich Informatik Universität Hamburg Proseminare
MehrSyntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M
OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Merkmalstrukturen und Unifikation Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Formale Komplexität natürlicher Sprachen WS 03/04 Universität Potsdam Institut
MehrDELA Wörterbücher ===========================================================
DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela
MehrSatz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung
Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer
MehrLinguistik für Kognitionswissenschaften
Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren
MehrFlorian Zipser Humboldt-Universität zu Berlin
Humboldt-Universität zu Berlin LAUDATIO Workshop 2014-10-07 1 Heterogene Domäne Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie 2 Heterogene Domäne Linguistische Daten und
MehrSprachsynthese und Spracherkennung
90 Sprachsynthese und Spracherkennung von John N. Holmes Mit 51 Bildern und 69 Übungen mit Lösungshinweisen R. Oldenbourg Verlag München Wien 1991 INHALT Vorwort 11 1 Lautsprachliche Kommunikation 15 1.1
MehrTechnik und Arbeitsablauf für FALKO
Peter Adolphs Emil Kroymann Technik und Arbeitsablauf für FALKO 1 Software 1.1 EXMARaLDA Partitur-Editor EXMARaLDA ist ein Annotationswerkzeug für linguistische Korpora. Es wurde von der Universität Hamburg
MehrProsodie Variation und Inferenz Phonologische Grundlagen
Prosodie Variation und Inferenz Beat Siebenhaar Frank Liedtke Phonetische Grundlagen Rückblick! Suprasegmentalia und Prosodie! Koartikulation, Assimilation, Schnellsprechformen! Silbe als artikulatorische
MehrVon Subjekten, Sätzen und Subjektsätzen
Wilhelm Oppenrieder Von Subjekten, Sätzen und Subjektsätzen Untersuchungen zur Syntax des Deutschen Max Niemeyer Verlag Tübingen 1991 V 0. EINLEITUNG 1 1. SUBJEKTE 3 1.1 Generelle Oberlegungen zu grammatischen
MehrInterdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell
MehrImplementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
MehrEinführung in die portugiesische Sprachwissenschaft
Annette Endruschat Jürgen Schmidt-Radefeldt Einführung in die portugiesische Sprachwissenschaft Gunter Narr Verlag Tübingen Inhalt Vorwort 9 Abkürzungen und Abbildungsverzeichnis 12 1 Weltsprache Portugiesisch
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
Mehr