Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Größe: px
Ab Seite anzeigen:

Download "Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation"

Transkript

1 Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung ist (meistens) tokenbasiert, dh. jedes Token erhält einen Tag weitere tokenbasierte Tags könnten sich z.b. auf Betonungmuster, Bedeutung, Konzept etc. beziehen en, die sich auf kleinere Einheiten beziehen: Morpheme, phonetische en etc. en, die sich auf größere Einheiten beziehen: syntaktische en (Phrasen, Sätze), Diskursstrukturen, Mehrwortlexeme etc.

2 Syntaktische : Definitionen Festlegung eines Tagsets Knotenlabel Kantenlabel Festlegung von grammatischen Beziehungen NB Festlegung eines mathematischen Modells (Graph, Baum etc.) NB: syntaktische Theorien (stark vereinfacht!) es gibt viele verschiedene Syntaxtheorien mit unterschiedlichen Zielsetzungen, Grundannahmen, Beschreibungsmitteln etc. syntaktische Theorien sind Modelle man versucht, die syntaktischen (Oberflächen)strukturen komplexer Ausdrücke möglichst plausibel und konsistent darzustellen NB: syntaktische Theorien (stark vereinfacht!) 'traditionelle' Grammatik Ziel: Beschreibung der Oberflächenstrukturen, 'traditionelle' (aus der lateinischen Grammatik stammende) Begriffe generative Grammatik Ziel: zugrundeliegendes produktives Regelsystem soll beschrieben werden NB: syntaktische Theorien (stark vereinfacht!) generative Theorien können regelbasiert sein (GB) können constraintbasiert sein (HPSG) können modular aufgebaut sein (GB, LFG) können zeichenbasiert aufgebaut sein (HPSG)...

3 Syntaktische : Verfahren für jedes gewünschte syntaktische Ergebnis gibt es unterschiedliche sverfahren manuelle /semi-automatische ressourcenintensiv fehleranfällig (daher oft doppelte dann sehr hoher Standard) eindeutig Syntaktische : Verfahren automatische (Parsing oder Chunking) schnell, wenig ressourcenintensiv, hohe Ambiguität, fehleranfällig regelbasiert, constraintbasiert, statistisch, hybrid Baumbank (tree bank) Korpus, das mit syntaktischer Struktur annotiert ist (meist Bäume, aber evtl. auch Syntaxgraphen wie bei TIGER) dabei kann die Struktur für ganze Sätze vergeben werden oder auch nur für Teile, wie zb Nominalphrasen Wozu eine Baumbank? Suche nach bestimmten syntaktischen Strukturen (zb geschachtelten Relativsätzen) als Beispiele für quantitative Untersuchungen zur Lexikonentwicklung (Valenzinformationen, Subkategorierungsinformationen etc.) Trainingsmaterial für statistische Parser

4 Qualitätsmerkmale einer BB allgemein Korpussprache Korpusumfang Verfügbarkeit Qualität der Vorverarbeitung für Baumbanken zusätzlich Detailliertheit der syntaktischen Kategorien und en (funktionale Kategorien?, Koreferenzen?) stiefe Baumbanken für s Deutsche NeGra (Universität Saarbrücken) Zeitungstext Verbmobil (Universität Tübingen) Terminabsprachedialoge TIGER (Universität Stuttgart, Universität Saarbrücken, Universität Potsdam) Zeitungstext Nachfolgeprojekt von NeGra Ein Beispiel: TIGER Ziel: von ca Sätzen Zeitungstext (Frankfurter Rundschau, alle Domänen) mit TIGER-Graphstrukturen (TIGER Description Language) 1. TIGER-Korpus entstanden im Projekt TIGER (1999 heute) beteiligte Institute CoLi Saarbrücken (Uszkoreit) IMS Stuttgart (Rohrer) Germanistik Potsdam (Eisenberg) URL:

5 TIGER-Korpus Zeitungstext (Frankfurter Rundschau) baut auf NEGRA-Korpus auf mehr Sätze detailliertere Version 1 veröffentlicht Juli Sätze ( Tokens) TIGER-Korpus: sebenen Wörter/Tokens annotiert mit Wortart (POS), nach STTS Morphologie, Lemma (in Arbeit) Syntax Kategorie (Knoten) Funktion (Kantenlabel) TIGER-Korpus: Syntax- (möglichst) theorieunabhängig kreuzende Kanten für nicht-lokale Abhängigkeiten (keine Spuren) NPs: keine Kopfauszeichnung (D vs. N als Kopf) sekundäre Kanten für Ellipsen etc. platzsparend flache Strukturen (keine unären Knoten, flache PP) virtueller Wurzelknoten Bsp: NPs, flache Strukturen

6 Bsp: kreuzende Kanten (Topikalisierung) Bsp: kreuzende Kanten (Extraposition) Bsp: sekundäre Kanten (Subjektslücke) Bsp: sekundäre Kanten (Ellipse+Gapping)

7 semi-automatische mit 1. Tool annotate, statistisch (Saarbrücken) 2. LFG-Grammatik, symbolisch (IMS Stuttgart) Konsistenzsicherung 2-malige, voneinander unabhängige (ca. 2x 50 sec/satz; Satz mit Ø 17,8 Tokens) anschließend Vergleich (> 2 min/satz) via annotate 1. POS-Tagging statistischer TnT-Tagger schlägt wahrscheinlichsten POS-Tag vor korrekte Tags: 84% 2. Phrasen/Konstituenten syntaktische Struktur wird sukzessive erstellt, statistischer Parser macht Vorschläge korrekte Phrasen: 71% Abfragesprachen man braucht eine Abfragesprache, die Baum- oder Graphenstrukturen durchsuchen kann (Präzedenz, Dominanz etc.) zb TIGERSearch (Universität Stuttgart) TIGERSearch kann Bäume und Syntaxgraphen darstellen und durchsuchen textuelle und graphische Abfrage möglich Baumbanken-Zusammenfassung Baumbanken sind eine wichtige Ressource (leider sehr 'teuer', daher gibt's noch nicht so viele) man muss das zugrundeliegende Grammatikmodell kennen man muss die sweise kennen man braucht eine eigene Abfragesprache

8 Warum phonetische/ phonologische linguistisch Überprüfung von syntaktischen/semantischen etc. Hypothesen (zb: Unterschied von depiktiven und resultativen Strukturen, Einfluss von Hutkontur auf Quantorenskopus, Fokus, Kontrast,...) Sprachvariation: Dialektforschung, Fremdwörter innerhalb einer Sprache, Akzent,... Warum phonetische/ phonologische linguistisch phonetisch/phonologische Forschung: phonologische Phrasen, Merkmale von Stress Forschung an Phänomenen gesprochener Sprache: Häsitationen, Selbstverbesserungen, Unterbrechungen, Wortschatz, Strukturunterschiede zu geschriebener Sprache,... Warum phonetische/ phonologische computerlinguistisch Trainingsmaterial für Spracherkennung (Automatic Speech Recognition, ASR) und Synthese (Text-to- Speech, TTS) als Grundlage von komplexen computerlinguistischen Systemen (Dialogsysteme, Maschinelle Übersetzung etc.) korpuslinguistisch: Hilfe bei der Desambiguierung von ambigen Tags, Strukturen etc. (Tenor, darauf, wir müssen noch einen Termin ausmachen) Phonetische/Phonologische von Sprachkorpora Ausgangspunkt: Sprachsignal Transkription in graphemische Ausgabe phonetische phonetische Transkription phonetische von Prosodie phonologische phonologische Repräsentation von Intonation phonologische Phrasen

9 Einschub: verschiedene Ebenen Man sieht, dass man hier verschiedene linguistische sebenen nur getrennt annotieren kann, sie dann aber einander zuordnen möchte stand-off- (verschiedene XML-Dateien, die durch eine Zeitachse miteinander verbunden sind) phonetische Transkription Das Sprachsignal muss in eine graphemische Repräsentation umgesetzt werden. Das geschieht entweder manuell, semi-automatisch oder ganz automatisch (statistische Verfahren, HMM, siehe zb Knill & Young 1997). Die Aufgabe ist schwierig Variation zwischen SprecherInnen/bei einer Sprecherin verbundene Sprache: Segmentierung schwierig man muss zwischen mehreren Hypothesen auswählen phonetische Transkription graphemisch orthographisch phonetisch: IPA-Symbole, schweirig darzustellen, daher SAMPA phonetische von Prosodie Frequenz (f0-kontur) Lautstärke Tonhöhe Pausen

10 Phonologische Repräsentation von Intonation suprasegmentale viele Schemata, abhängig von der jeweiligen phonologischen Theorie zb: ToBI (Tone and Break Indices), GToBI (German Tone and Break Indices) (folgende Abbildung aus Tonveränderungen werden markiert phonologische manuell: schwierig, Differenzen zwischen AnnotatorInnen, zt sehr subtile Unterschiede typische Fehler: AnnotatorInnen verbessern Fehler im Sprachsignal, Satzzeichen daher besser (weil reproduzierbar): automatische Dialoge besonderes Problem: überlappende Sprache von mehreren SprecherInnen auch hier wieder: stand-off mit Zeitachse FU Prof. Dittmar, HU Patrick Grommes

11 Literatur Knill, K. & Young, S. (1997) Hidden Markov Models in Speech and Language Processing. In: Young, S. & Bloothooft, G. (eds) Corpus-Based Methods in Language and Speech Processing für GToBI: für SAMPA: Literatur Dank an Stefanie Dipper für Folien zu TIGER Lezius, Wolfgang (2001) Baumbanken. In: Carstensen et al. (eds) Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Verlag, Heidelberg, zu TIGER: & die dort enthaltenen Beschreibungen König & Lezius The TIGER language Smith A Brief Introduction to the TIGER Sample Corpus

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...

Lemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern... Lemmatisierung Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 zum Lemmatisieren braucht man also ein Lexikon, in dem die Lemmata mit ihrer Flexionsklasse

Mehr

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Projektseminar "Texttechnologische Informationsmodellierung"

Projektseminar Texttechnologische Informationsmodellierung Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung

Mehr

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen

Mehr

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich

Mehr

Organisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster

Organisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster Organisatorisches: Poster Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 Erstellung eines wissenschaftlichen Posters in einer Gruppe (< 4 Personen)

Mehr

Spracherkennung und Sprachsynthese

Spracherkennung und Sprachsynthese Spracherkennung und Sprachsynthese Einführung in die Computerlinguistik Sommersemester 2012 Peter Kolb Spracherkennung / -synthese Spracherkennung (automatic speech recognition, ASR) Sprachsynthese (text-to-speech,

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Überblick. Hauptseminar: Einführung in die Korpuslinguistik. Wiederholung Produktivität. Wiederholung Produktivität. Fragen

Überblick. Hauptseminar: Einführung in die Korpuslinguistik. Wiederholung Produktivität. Wiederholung Produktivität. Fragen Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Überblick Wiederholung Produktivität Registervariation multidimensionale Analyse Register

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen

Mehr

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

Überblick. Linguistische Grundlagen für die maschinelle Sprachverarbeitung. Was ist Linguistik? Linguistik. Generative Linguistik

Überblick. Linguistische Grundlagen für die maschinelle Sprachverarbeitung. Was ist Linguistik? Linguistik. Generative Linguistik Überblick Linguistische Grundlagen für die maschinelle Sprachverarbeitung Anke Lüdeling Institut für deutsche Sprache und Linguistik anke.luedeling@rz.hu-berlin.de Was ist Linguistik? linguistische Beschreibungsebenen

Mehr

Sprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010

Sprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010 Sprachproduktion Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010 Sprachliche Zentren im Gehirn SSSSensorische Funktionen Motorische Funktionen Sprachliche Zentren im Gehirn Generieren

Mehr

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung. Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines

Mehr

Syntax und Phonologie: Prosodische Phrasen

Syntax und Phonologie: Prosodische Phrasen Morphologie und Syntax (BA) Syntax und Phonologie: Prosodische Phrasen PD Dr. Ralf Vogel Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld, SoSe 2007 Ralf.Vogel@Uni-Bielefeld.de 28.6.2007

Mehr

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei

Mehr

Äquivokationen. In der Spracherkennung. Michael Baumann Seminar (mit Bachelorarbeit)

Äquivokationen. In der Spracherkennung. Michael Baumann Seminar (mit Bachelorarbeit) Äquivokationen In der Spracherkennung Michael Baumann 532 0225336 michael.baumann@student.tuwien.ac.at Seminar (mit Bachelorarbeit) Inhalt Einführung Äquivokation, Ambiguität, Prosodie Signale Beispiele:

Mehr

Vorlesung: Einführung in die Computerlinguistik. VL: Einführung in die Computerlinguistik

Vorlesung: Einführung in die Computerlinguistik. VL: Einführung in die Computerlinguistik Wintersemester 98/99 Vorlesung: Einführung in die Computerlinguistik Teil 1: Forschungsgegenstand und Nachbarwissenschaften Hans Uszkoreit Übersicht des ersten Teils Aufgaben und Einordnung des Faches

Mehr

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Ausgangsfrage PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Irina Gossmann Carine Dombou 9. Juli 2007 INHALT Ausgangsfrage 1 AUSGANGSFRAGE 2 SYNTAX DES DEUTSCHEN + NEGRA 3 PROBABILISTISCHE

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Grundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10

Grundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10 Grundlagen empirischer Forschung Korpuslinguistik Heike Zinsmeister WS 2009/0 Grundlagen Vorbereitung einer empirischen Studie Allgemeine Beschreibung des zu untersuchenden Phänomens Literaturstudien Erkundigungen

Mehr

Gesprochenes Deutsch

Gesprochenes Deutsch Gesprochenes Deutsch Eine Einführung von Johannes Schwitalla ERICH SCHMIDT VERLAG 1. Für wen das Buch geschrieben ist und was man damit anfangen kann... 9 2. Was ist gesprochene Sprache?...14 2.1. Gesprochene

Mehr

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken SFB 441, Universität Tübingen Syntaktisch annotierte Baumbanken Ursprünglich: Morphosyntaktische Tags (POS) Anreicherung mit syntaktischen Informationen

Mehr

Linguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Linguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister Linguistische Aufbereitung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.01.2011 Linguistische Aufbereitung Es war einmal eine kleine Hexe, die war erst einhundertsiebenundzwanzig Jahre alt,

Mehr

Erkennung und Erzeugung gesprochener Sprache

Erkennung und Erzeugung gesprochener Sprache Erkennung und Erzeugung gesprochener Sprache Sebastian Pado Einführung in die Computerlinguistik 2004/2005 1 Einführung Viele computerlinguistische Anwendungen gehen von textbasierter Ein/Ausgabe aus (I.a.)

Mehr

Linguistische Grundlagen für die maschinelle Sprachverarbeitung

Linguistische Grundlagen für die maschinelle Sprachverarbeitung Linguistische Grundlagen für die maschinelle Sprachverarbeitung Anke Lüdeling Institut für deutsche Sprache und Linguistik anke.luedeling@rz.hu berlin.de Überblick Was ist Linguistik? linguistische Beschreibungsebenen

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung

Mehr

Erweiterung des STTS für gesprochene Sprache

Erweiterung des STTS für gesprochene Sprache Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart

Mehr

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW   Subject: MTZH Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Offene Fragen Wie wird der Imperativ in LFG analysiert? Unterschiede zwischen LFG und HPSG? 2

Mehr

2 Sprachliche Einheiten

2 Sprachliche Einheiten 2 Sprachliche Einheiten Inhalt Semiotische Begriffe Wörter Wortbestandteile Wortzusammensetzungen Wortgruppen Text und Dialog Wort- und Satzbedeutung 2.1 Semiotische Begriffe Semiotische Begriffe Semiotik

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Wortstellung nominaler Elemente im Mittelfeld

Wortstellung nominaler Elemente im Mittelfeld Wortstellung nominaler Elemente im Mittelfeld Untersuchung zur Stellung nominaler Elemente im deutschen Mittelfeld - Vortrag am 04.02.2004 - von: Olga Krasavina Stefan Träger Robert Lange Elena Briskina

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

. How Complex are Complex Predicates? K. Maiterth, A. Domberg. Seminar: Komplexe Verben im Germanischen Universität Leipzig Problem..

. How Complex are Complex Predicates? K. Maiterth, A. Domberg. Seminar: Komplexe Verben im Germanischen Universität Leipzig Problem.. How Complex are Complex Predicates? K Maiterth, A Domberg Seminar: Komplexe Verben im Germanischen Universität Leipzig 21052012 Inhalt 1 Verbcluster im Deutschen Komplexer Kopf VP-Komplementierung 2 Haiders

Mehr

Automatentheorie und formale Sprachen

Automatentheorie und formale Sprachen Automatentheorie und formale Sprachen Wiebke Petersen Wiebke Petersen Automatentheorie und formale Sprachen - WiSe12/13 1 Seminarplan Lektüre: Theoretische Grundlagen der Informatik, Rolf Socher, 2008

Mehr

Eine nebenläufige Syntax-Semantik-Schnittstelle für Dependenzgrammatik 1

Eine nebenläufige Syntax-Semantik-Schnittstelle für Dependenzgrammatik 1 Eine nebenläufige Syntax-Semantik-Schnittstelle für Dependenzgrammatik Ralph Debusmann 1. Diplomarbeit: TDG - ein deklarativer Grammatikformalismus für Dependenzgrammatik 2. Forschungsvorhaben: eine nebenläufige

Mehr

Charts. Motivation. Grundfrage. Chart als Graph

Charts. Motivation. Grundfrage. Chart als Graph Charts Motivation Übersicht Chart bzw. Well-Formed Substring Table (WFST) Als azyklischer Graph, Tabelle und Relation Kantenbeschriftungen Kategorien: WFST Regeln: Passive Charts Regelhyposen: Aktive Charts

Mehr

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Morphologie Wort Morphem Allomorph Sprachtypologie anhand

Mehr

Computerlinguistik: Ein Überblick

Computerlinguistik: Ein Überblick 11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik

Mehr

Sprachsynthese und SSML

Sprachsynthese und SSML Sprachsynthese und SSML HS Dialogsysteme und VoiceXML, 11. Januar 2005 Dozenten: Prof. Klaus Schulz, Christoph Ringlstetter Referentin: Joanna Rymarska Übersicht Was bedeutet Sprachsynthese? Ihre Rolle

Mehr

Erkennung und Erzeugung gesprochener Sprache

Erkennung und Erzeugung gesprochener Sprache Erkennung und Erzeugung gesprochener Sprache 8.11.2005 Sebastian Pado Einführung in die Computerlinguistik 2005/2006 M. Pinkal / S. Pado UdS 1 Einführung Viele computerlinguistische Anwendungen gehen von

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Probabilistische kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 08. Dezember 2015 Let s play a game Ich gebe Ihnen ein Nichtterminalsymbol. S, NP, VP, PP, oder POS-Tag

Mehr

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28

Mehr

! Die Idee Kombination von Informatik und einem anderen Fach

! Die Idee Kombination von Informatik und einem anderen Fach Computerlinguistik Integriertes Anwendungsfach im B.Sc.Studiengang Department Informatik / Universität Hamburg! Wie funktioniert das integrierte Anwendungsfach Computerlinguistik (organisatorisch)?! Beziehungen

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Organisatorisches Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

Wiederholung: Linguistische Daten. HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen. Organisatorisches. Wiederholung: Korpusdaten

Wiederholung: Linguistische Daten. HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen. Organisatorisches. Wiederholung: Korpusdaten HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen Anke Lüdeling WS 2003/2004 Wiederholung: Linguistische Daten linguistische Fragestellung (eingebettet in eine Theorie oder ein Modell) dafür

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Sprache beginnt ohne Worte. Vorsprachliche Entwicklung und die Bedeutung der frühen Elternarbeit

Sprache beginnt ohne Worte. Vorsprachliche Entwicklung und die Bedeutung der frühen Elternarbeit Sprache beginnt ohne Worte Vorsprachliche Entwicklung und die Bedeutung der frühen Elternarbeit Grundeigenschaften menschlicher Sprache gesprochene Sprache ist akustisch vermittelt kleine Zahl von Lauten

Mehr

Sprachsynthese - ein Überblick

Sprachsynthese - ein Überblick Sprachsynthese - ein Überblick Florian Schiel Florian F Schiel: Sprachsynthese - Übersicht WS 05/06 1 Definition: Produktion von Sprache mit technischen Mitteln Gegensatz: Synthese vs. Wiedergabe (Übergang

Mehr

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW   Subject: MTZH Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Übersicht Themenbereiche: 1. Erstellung und Standardisierung von Ressourcen für die Maschinelle

Mehr

Computational Prosody: Symbolische Beschreibung von Intonationskonturen. Uwe D. Reichel IPSK, LMU München

Computational Prosody: Symbolische Beschreibung von Intonationskonturen. Uwe D. Reichel IPSK, LMU München Computational Prosody: Symbolische Beschreibung von Intonationskonturen Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de Inhalt Tonsequenzansatz Pierrehumbert (1980) Generierung der Intonationskontur

Mehr

Die Form der Intona.on: Das AM Modell. Jonathan Harrington

Die Form der Intona.on: Das AM Modell. Jonathan Harrington Die Form der Intona.on: Das AM Modell Jonathan Harrington Das Autosegmentelle- Metrische (A- M) Modell der Intona.on: Haupteigenscha>en Bruce (1977), Swedish Word Accents in Sentence Perspec2ve, Gleerup,

Mehr

8 Fakultät für Philologie

8 Fakultät für Philologie 8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene

Mehr

Proseminar, wozu? Proseminar, wozu? Proseminar, wozu? Verarbeitung gesprochener Sprache

Proseminar, wozu? Proseminar, wozu? Proseminar, wozu? Verarbeitung gesprochener Sprache Proseminar, wozu? Verarbeitung gesprochener Sprache Proseminar Wolfgang Menzel menzel@informatik.uni-hamburg.de Arbeitsbereich Natürlichsprachliche Systeme Fachbereich Informatik Universität Hamburg Proseminare

Mehr

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Merkmalstrukturen und Unifikation Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Formale Komplexität natürlicher Sprachen WS 03/04 Universität Potsdam Institut

Mehr

DELA Wörterbücher ===========================================================

DELA Wörterbücher =========================================================== DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela

Mehr

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer

Mehr

Linguistik für Kognitionswissenschaften

Linguistik für Kognitionswissenschaften Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren

Mehr

Florian Zipser Humboldt-Universität zu Berlin

Florian Zipser Humboldt-Universität zu Berlin Humboldt-Universität zu Berlin LAUDATIO Workshop 2014-10-07 1 Heterogene Domäne Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie 2 Heterogene Domäne Linguistische Daten und

Mehr

Sprachsynthese und Spracherkennung

Sprachsynthese und Spracherkennung 90 Sprachsynthese und Spracherkennung von John N. Holmes Mit 51 Bildern und 69 Übungen mit Lösungshinweisen R. Oldenbourg Verlag München Wien 1991 INHALT Vorwort 11 1 Lautsprachliche Kommunikation 15 1.1

Mehr

Technik und Arbeitsablauf für FALKO

Technik und Arbeitsablauf für FALKO Peter Adolphs Emil Kroymann Technik und Arbeitsablauf für FALKO 1 Software 1.1 EXMARaLDA Partitur-Editor EXMARaLDA ist ein Annotationswerkzeug für linguistische Korpora. Es wurde von der Universität Hamburg

Mehr

Prosodie Variation und Inferenz Phonologische Grundlagen

Prosodie Variation und Inferenz Phonologische Grundlagen Prosodie Variation und Inferenz Beat Siebenhaar Frank Liedtke Phonetische Grundlagen Rückblick! Suprasegmentalia und Prosodie! Koartikulation, Assimilation, Schnellsprechformen! Silbe als artikulatorische

Mehr

Von Subjekten, Sätzen und Subjektsätzen

Von Subjekten, Sätzen und Subjektsätzen Wilhelm Oppenrieder Von Subjekten, Sätzen und Subjektsätzen Untersuchungen zur Syntax des Deutschen Max Niemeyer Verlag Tübingen 1991 V 0. EINLEITUNG 1 1. SUBJEKTE 3 1.1 Generelle Oberlegungen zu grammatischen

Mehr

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell

Mehr

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr

Einführung in die portugiesische Sprachwissenschaft

Einführung in die portugiesische Sprachwissenschaft Annette Endruschat Jürgen Schmidt-Radefeldt Einführung in die portugiesische Sprachwissenschaft Gunter Narr Verlag Tübingen Inhalt Vorwort 9 Abkürzungen und Abbildungsverzeichnis 12 1 Weltsprache Portugiesisch

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr