ORTHOGRAPHISCHE NORMALISIERUNG GESPROCHENER SPRACHE

Größe: px
Ab Seite anzeigen:

Download "ORTHOGRAPHISCHE NORMALISIERUNG GESPROCHENER SPRACHE"

Transkript

1 ORTHOGRAPHISCHE NORMALISIERUNG UND POS-TAGGING VON TRANSKRIPTIONEN GESPROCHENER SPRACHE Thomas Schmidt, IDS Mannheim

2 FOLK Forschungs- und Lehrkorpus gesprochenes Deutsch Großes, breit stratifiziertes, computergestützt verarbeitbares, öffentlich verfügbares Korpus deutscher Gespräche Seit 2008 am IDS Erstes offizielles Release: Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch (DGD2) Ca. 70h Audio-Aufnahmen, ca transkribierte Wort- Tokens Weiter im Aufbau

3 Gliederung (semi-)automatisierte Normalisierung literarischer Umschrift in FOLK Literarische Umschrift Orthographische Normalisierung Automatisierung / Evaluation Verbesserungsmöglichkeiten (semi-)automatisiertes POS-Tagging von Transkriptionen

4 Literarische Umschrift = Repräsentation von Mündlichkeit, so wie in der (schönen) Literatur üblich Sei glöcklich, du gutes Kend [Sesemi Weichbrodt, Buddenbrooks] Zwirner/Bethge (1958): Deutsche Mundarten Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen Selting et. al. (1998): Gesprächsanalytisches Transkriptionssystem Modified Orthography, Eye dialect, Orthographe adaptée I wuz de on y one dat had much. So I stuck out for mo dan fo dollars, en I said [ ] [Jim, Adventures of Huckleberry Finn] b'jour, chais pas [Convention ICOR, CLAPI Lyon]

5 Literarische Umschrift

6 Literarische Umschrift Ellisionen Verschleifungen Assimilationen dialektale Färbungen generelle Kleinschreibung

7 Literarische Umschrift Warum nicht Standardorthographie? relevante Charakteristika der Mündlichkeit (hist.) visuelle Abgrenzung von geschriebenem Text Warum nicht phonetische Umschrift? Arbeitsökonomie Zugänglichkeit / Lesbarkeit Verlust morphologischer/lexikalischer Systematik

8 Literarische Umschrift Bewusstes Abweichen von schriftsprachlichen Standards Regelgeleitet? Von der Orthographie soll [ ] abgewichen werden, wo der gesprochene Laut durch einen anderen Buchstaben [ ] besser wiedergegeben wird [Zwirner/Bethge 1958] standardsprachliche Realisierungen Standardorthographie, nicht-standardsprachliche Realisierungen literarische Umschrift [ ] abweichende Ausdrücke werden [ ] nachgebildet, wenn sie vereinzelt auftreten [ ], allgemein verbreitete Phänomene [ ] werden nicht notiert [Rehbein et al. 1993] Beispiellisten bei HIAT, GAT, Verbmobil (süddeutsch) [lustik] lustig? lustick? lustik? (norddeutsch) [stain]???

9 Warum normalisieren? Vorhersagbarkeit bei Suchen nein, nee, na, ne, neeh, nehee, nö, näh, nää bleibsch, bleibscht, gebliewe, gebliwwe Anwendung von NLP-Methoden Lemmatisierung POS-Tagging syntaktische Annotation etc.

10 FOLK-Annotationsebenen Transkription da gehst de jetz einfach über dem bild Normalisierung da gehst du jetzt einfach über dem Bild Lemmatisierung da gehen du jetzt einfach über d Bild POS ADV VFIN PPER ADV ADJD APPR ART NN Maskierung 2h-10h Transkription / Kontrolle 30h-80h Korrekturen Effektivierung des Workflows: Beschleunigung Vereinfachung Normalisierung 1h-5h POS-Tagging 3h-5h

11 Normalisierungsregeln Interpretationsarme Annäherung an Standardorthographie Normalisierung auf Ebene von Lexikon und Morphosyntax, keine syntaktischen oder stilistischen Korrekturen Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti) redaktionell bevorzugte Varianten Explizite Regelungen für Interjektionen: Häsitationen, Rezeptionssignale, Frageanhängsel etc. Unvollständige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrüche, fragmentierte Wörter Umgangssprachliche Verkürzungen Diskussion und Dokumentation von Einzelfallentscheidungen Konsistenz

12 Zweifelsfälle Normalisierungsregeln Rekonstruktion von Abbrüchen Kontraktionen hammers haben wir es kannst kannst Du? durchs durch das zum zu dem? [ugs.]? / Frequenz?

13 Evaluation 22 manuell normalisierte Transkriptionen aus FOLK Wort-Tokens, Wort-Types Quote: Ø29.89% / max % / min % Häufige Typen: Klein- Großschreibung: 12.99% Ergänzung / Klassifizierung unvollständiger Formen: 6.49% Häsitation (ähm äh): 1.46% 18 Trainings- / 4 Evaluationsdaten

14 Lexikonbasiert Automatisierung Transkribierte Form W mehr als n-mal zu Form W normalisiert Zuweisung von Form W Nur großgeschriebene Variante in DeReWo Großschreibung

15 Automatisierung Schwellenwert Precision Recall Error % 84.14% 17.80% % 77.50% 16.67% % 74.30% 16.41% % 61.70% 11.89% % 53.88% 12.71% höhere Präzision inakzeptabler Recall deutliche Erleichterung der manuellen Korrektur mehr Lexikondaten Erhöhung von Precision und Recall? keine Annäherung an 100%

16 Phänomenologie: Lexikon Eindeutige Fälle Mehrdeutige Fälle heut heute 67 hallgewersignal Hallgebersignal 3 mein mein 115 frag frage 19 sache Sache 19 ma mal 280 a a 109 meine 39 frag 2 sagen 16 man 221 ah 17 meinen 2 Frage 1 Sachen 1 wir 123 auch 8 meiner 1 % 3 aber 7 # 2 an 5 ma 2 ach 2 mir 2 acht 2 Mama 1 also 2 mach 1 abgestanden 1 machen 1 akut 1 meinst 1 alles 1 als 1

17 Phänomenologie: Lexikon Regelmäßigkeiten abbaue abbauen 2 abgezoge abgezogen 2 abklopfe abklopfen 2 absetze absetzen 1 abstelle abstellen 1 abwende abwenden 1 abziehe abziehen 1 achte achten 1 alte alten 1 andere anderen 3 anfange anfangen 1 angebe angeben 1 angesproche angesprochen 1 anrufe anrufen 1 abzieh abziehe 2 akzeptier akzeptiere 1 all alle 1 anfang anfange 1 anhab anhabe 1 aufmach aufmache 1 bau baue 1 bedank bedanke 1 behandel behandele 1 beinah beinahe 1 bekomm bekomme 1 bereu bereue 1 bestell bestelle 3 besuch besuche 1 bleib bleibe 2 brauch brauche 33

18 Phänomenologie: Lexikon Ähnlichkeiten abber aber ankucken angucken gsagt gesagt hintn hinten isch ich odder oder sauwer sauber schaun schauen spieln spielen verdrehn verdrehen warn waren widder wieder würdst würdest zusammenarbeiden zusammenarbeiten zusammengearbeidet zusammengearbeitet (Levenshtein-Distanz) ansonschten ansonsten aufgawestellung Aufgabenstellung besserwischerisch besserwisserisch blätterteigstücksche Blätterteigstückchen eklichem ekligem gescheüber gegenüber geschtern gestern hihänge hinhängen karteikarde Karteikarten linsensup Linsensuppe näkschten nächsten runnergugge runtergucken spätdiensch Spätdienst wollis Wallace (Phonetische Distanz)

19 Phänomenologie: Fehler kann s losgehn also ihr sollt au jetzt ganz normal reden es losgehen auch es sollte auch un dann gehste bis zur höhe des toasters bei dem bildrand des toasters n stückchen und gehst du zu der Höhe Toasters Bildrand Toasters ein Stückchen und gehst du zu der Höhe das Bildrand das ein Stückchen da so n mann mit n stück fleisch ein Mann einem Stück Fleisch ein Mann ein Stück Fleisch watte ma watte ma wo soll ich lang warte mal warte mal Watte mal Watte mal

20 Verbesserung der automatischen Normalisierung Ermittlung von Kandidaten (Recall) Abgleich mit bereits normalisierten Formen Abgleich mit Wortliste (DeReWo) Ermittlung von möglichen Normalisierungen aus bereits normalisierten Formen ähnliche Formen aus Wortliste (Regeln: n-ellision, e-ellision)? Entscheidung zwischen Alternativen (Precision) einfache Häufigkeiten aus FOLK einfache Häufigkeiten aus anderen Korpora? (kombinatorische Häufigkeiten)?

21 FOLK-Lexikon DeReWo etc. Transkribierte Form Bereits normalisiert? nein In Wortliste? ja keine Normalisierung ja nein Normalisierte Form(en) Häufigkeit in FOLK Ähnliche Form(en) Häufigkeit in DeReKo Kandidatenliste n-gram-häufigkeiten? Auswahl Manuelle Korrektur (OrthoNormal) Normalisierte Form

22 Effektivierung der manuellen Korrektur

23 Effektivierung der manuellen Korrektur

24 Effektivierung der manuellen Korrektur

25 Test: POS-Tagging TreeTagger / STTS / Default -Parameterdatei 3 manuell korrigierte Transkripte aus Tesdatensatz Fehlerquoten: Transkript1 Transkript2 Transkript3 Gesamt literarische Umschrift 33.22% 29.96% 31.33% 31.39% normalisiert 18.79% 18.62% 19.5% 18.84% (optimiert) 13.38% 11.52% 16.13% (vereinfacht) 8.7% 7.5% 11.9%

26 Zusammenfassung Brauchbare Automatisierung durch lexikonbasierte Verfahren Annäherung an 100% vorerst nicht realistisch Weitere Verbesserungen möglich durch größere/andere Lexika Ermitteln ähnlicher Formen als Kandidaten verfeinerte Methoden zur Auswahl des besten Kandidaten Effektivierung manueller Korrektur

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Thomas Schmidt, Dolores Batinić DAS FORSCHUNGS- UND LEHRKORPUS GESPROCHENES DEUTSCH (FOLK) ALS QUELLE FÜR LEXIKOGRAPHISCHE ARBEIT

Thomas Schmidt, Dolores Batinić DAS FORSCHUNGS- UND LEHRKORPUS GESPROCHENES DEUTSCH (FOLK) ALS QUELLE FÜR LEXIKOGRAPHISCHE ARBEIT Thomas Schmidt, Dolores Batinić DAS FORSCHUNGS- UND LEHRKORPUS GESPROCHENES DEUTSCH (FOLK) ALS QUELLE FÜR LEXIKOGRAPHISCHE ARBEIT GLIEDERUNG (1) FOLK ein Gesprächskorpus Daten, Annotationen, Design / Stratifikation

Mehr

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin

Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich

Mehr

2.3 Was wird von den Transkribierenden erwartet?

2.3 Was wird von den Transkribierenden erwartet? skriptionszeichen zudem darauf zu achten, dass diese mit der genutzten Software kompatibel sind. 2.3 Was wird von den Transkribierenden erwartet? Neben sehr guten Kenntnissen der deutschen Rechtschreibung,

Mehr

Transkriptionsaufwand

Transkriptionsaufwand Jenny Winterscheid Transkriptionsaufwand Bearbeitungsstand: 29.05.2015 Da die Produktion gesprochener Sprache in mündlicher Interaktion ein schnell ablaufendes Geschehen darstellt (Selting 2001, 1059),

Mehr

POS für(s) FOLK Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch

POS für(s) FOLK Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch Swantje Westpfahl, Thomas Schmidt POS für(s) FOLK Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch 1 Einleitung Im Rahmen des FOLK-Projekts (Forschungs- und Lehrkorpus Gesprochenes

Mehr

Thomas Schmidt & Arnulf Deppermann Institut für Deutsche Sprache, Mannheim

Thomas Schmidt & Arnulf Deppermann Institut für Deutsche Sprache, Mannheim Data Sharing Best Practice und Perspektiven: Archiv für Gesprochenes Deutsch Thomas Schmidt & Arnulf Deppermann Institut für Deutsche Sprache, Mannheim Gliederung 1. Hintergrund IDS und (AGD) Datenbank

Mehr

Wintersemester / Vorlesung: Methoden der empirischen Sozialforschung / Lehrstuhl für Mikrosoziologie / Prof. Dr. Karl Lenz

Wintersemester / Vorlesung: Methoden der empirischen Sozialforschung / Lehrstuhl für Mikrosoziologie / Prof. Dr. Karl Lenz Vorlesung im Sommersemester 2009 Prof. Dr. Karl Lenz Methoden der empirischen Sozialforschung III. Komplex: Qualitative Forschungsmethoden Folien zur Vorlesung im Netz: https://bildungsportal.sachsen.de/opal/

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen

Mehr

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV September 2015 David Stoppel, Franziska Wallner Einleitung Die Lemmalisten liefern Häufigkeitsangaben für Wörter der deutschen gesprochenen

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

DGD die Datenbank für Gesprochenes Deutsch DGD the Database of Spoken German

DGD die Datenbank für Gesprochenes Deutsch DGD the Database of Spoken German Erschienen in: Zeitschrift für germanistische Linguistik Jg. 45 (2017), Nr. 3. S. 451-463 Ressourcen Thomas Schmidt* DGD die Datenbank für Gesprochenes Deutsch DGD the Database of Spoken German Mündliche

Mehr

TRANSKRIPTION. Transkription Methode. TRANSKRIPTION Wozu?

TRANSKRIPTION. Transkription Methode. TRANSKRIPTION Wozu? Verschriftung von akustischen (audiovisuellen) Gesprächsprotokollen nach festgelegten Notationsregeln. Beat Siebenhaar 2! Wozu? Gespräche / Tonaufnahmen festhalten Überblick über Gesprächsverlauf Möglichkeit

Mehr

Hessler, Steffen / Pottmann, Daniel. Transkriptionskonventionen für das Ruhrdeutsche

Hessler, Steffen / Pottmann, Daniel. Transkriptionskonventionen für das Ruhrdeutsche Hessler, Steffen / Pottmann, Daniel Transkriptionskonventionen für das Ruhrdeutsche Transkripte des Alt- und Neukorpus des KgSR-Projekts 1 I. Minimaltranskripte mit dem Transkriptionseditor FOLKER Der

Mehr

Erweiterung des STTS für gesprochene Sprache

Erweiterung des STTS für gesprochene Sprache Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart

Mehr

GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten. Jennifer Krisch Daimler AG

GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten. Jennifer Krisch Daimler AG GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten Jennifer Krisch Daimler AG Inhalte 1 Motivation 2 Was sind Weak-Words? 3 Vorgehen bei der Analyse 4 Evaluation

Mehr

ANNIS Quickstart

ANNIS Quickstart Suche in ANNIS Bevor man suchen kann, muss das gewünschte Korpus in der Korpusliste ausgewählt werden (z.b. das Teilkorpus mo (monoethnisches Ergänzungskorpus) oder KiDKo mu (multiethnisches Korpus). Danach

Mehr

Korpuslinguistik IDS-Korpora und COSMAS II

Korpuslinguistik IDS-Korpora und COSMAS II Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche

Mehr

Kurzbeschreibung der Transkriptionsverfahren

Kurzbeschreibung der Transkriptionsverfahren Transkription: Transkriptionssysteme Ralf Knöbl, Kerstin Steiger Zur Verschriftung alltäglicher Gespräche sind unterschiedliche Systeme entwickelt worden. Die prominentesten und weitesten verbreitete Systeme

Mehr

Norbert Dittmar. Transkription. Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien. 3. Auflage III VS VERLAG FÜR SOZIALWISSENSCHAFTEN

Norbert Dittmar. Transkription. Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien. 3. Auflage III VS VERLAG FÜR SOZIALWISSENSCHAFTEN Norbert Dittmar Transkription Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien 3. Auflage III VS VERLAG FÜR SOZIALWISSENSCHAFTEN Inhalt 0. Vorwort 9 1. Kulturtechniken der Verdauerung flüchtiger

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Gleiche Daten, unterschiedliche Erkenntnisziele?

Gleiche Daten, unterschiedliche Erkenntnisziele? Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität

Mehr

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner

Mehr

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,

Mehr

Projektseminar "Texttechnologische Informationsmodellierung"

Projektseminar Texttechnologische Informationsmodellierung Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Wintersemester 2006-07 / Vorlesung: Methoden der empirischen Sozialforschung / Lehrstuhl für Mikrosoziologie / Prof. Dr. Karl Lenz

Wintersemester 2006-07 / Vorlesung: Methoden der empirischen Sozialforschung / Lehrstuhl für Mikrosoziologie / Prof. Dr. Karl Lenz Vorlesung im Wintersemester 2006-07 Prof. Dr. Karl Lenz Methoden der empirischen Sozialforschung III. Komplex: Qualitative Forschungsmethoden Folien zur Vorlesung im Netz: www.tu-dresden.de/phfis/lenz

Mehr

Graphematische Transkription in Soziolekte

Graphematische Transkription in Soziolekte Wi froh bin i, daß i weg bin! Besta Frund, was isch das Herz des Menscha! wie froh bin ich, daß ich weg pin! Oida! beester freund, Was ist Das herz DeS menschen! - Goethe: Die Leiden des jungen Werther

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Gesprächsanalytisches Transkriptionssystem (GAT) Margret Selting et al. (1998) von Christina Blaß und Juliane Schmidt

Gesprächsanalytisches Transkriptionssystem (GAT) Margret Selting et al. (1998) von Christina Blaß und Juliane Schmidt Universität des Saarlandes Fak. 4.7 Seminar: Interaktionale Phonetik (Köser) Gesprächsanalytisches Transkriptionssystem (GAT) Margret Selting et al. (1998) von Christina Blaß und Juliane Schmidt Überblick

Mehr

Korpus Schlichtungs- und Gerichtsverhandlungen (SG--)

Korpus Schlichtungs- und Gerichtsverhandlungen (SG--) 1 Institut für Deutsche Sprache, Mannheim Abteilung Pragmatik: Archiv für Gesprochenes Deutsch URL: http://agd.ids-mannheim.de 2014 IDS, Mannheim Korpus Schlichtungs- und Gerichtsverhandlungen (SG--) Korpus_Projekt_Kurzbeschreibung

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand

Mehr

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am 23.10.2006 Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk Übersicht Aufgabenstellung

Mehr

VOM ANALOGEN ARCHIV ZUM DIGITALEN FORSCHUNGSDATENZENTRUM

VOM ANALOGEN ARCHIV ZUM DIGITALEN FORSCHUNGSDATENZENTRUM Thomas Schmidt VOM ANALOGEN ARCHIV ZUM DIGITALEN FORSCHUNGSDATENZENTRUM Aktuelle Herausforderungen im Archiv für Gesprochenes Deutsch (AGD) GLIEDERUNG Vom analogen Archiv zum digitalen Forschungsdatenzentrum

Mehr

Caren Brinckmann / Noah Bubenhofer

Caren Brinckmann / Noah Bubenhofer Caren Brinckmann / Noah Bubenhofer Sagen kann man's schon, nur schreiben tut man's selten Die tun-periphrase Und naja, ansonsten noch Wörter tun, machen, kriegen soll man nicht sagen, weil das sind Wörter,

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

KGSR-Transkriptionskonventionen 1

KGSR-Transkriptionskonventionen 1 KGSR-Transkriptionskonventionen 1 Stand: 16.05.2011 Inhalt 1 Transkript-Design... 1 1.1 Partiturschreibung... 2 1.2 Transkriptionsspuren... 2 1.2.1 Literarische Umschrift... 2 1.2.2 Standardorthographische

Mehr

Bei schönen Päckchen Auffälligkeiten beschreiben und begründen Transkripte zu den Videos

Bei schönen Päckchen Auffälligkeiten beschreiben und begründen Transkripte zu den Videos Päckchen: 5 + 5 = 10 6 + 4 = 10 7 + 3 = 10 8 + 2 = 10 9 + 1= 10 + = + = Önder 1 I: Dann nehmen wir mal die nächsten Aufgaben Ö: Das wird immer schwerer, ne? I: Ja, schaun wir mal. Schau dir auch hier,

Mehr

Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1

Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1 Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1 Thomas Krause 1 Vorkenntnisse??? 2 Hands On Im Browser (möglichst Firefox oder Chrome) https://korpling.german.hu-berlin.de/annis3/ aufrufen Nachfragen!

Mehr

Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte

Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und

Mehr

Thomas Schmidt, Sylvia Dickgießer, Joachim Gasch 1

Thomas Schmidt, Sylvia Dickgießer, Joachim Gasch 1 Die Datenbank für Gesprochenes Deutsch - DGD2 Thomas Schmidt, Sylvia Dickgießer, Joachim Gasch 1 1. Einleitung Die Datenbank für Gesprochenes Deutsch (DGD2) ist ein Korpusmanagementsystem im Archiv für

Mehr

I1-Transkriptionskonventionen

I1-Transkriptionskonventionen OntoSpace Project Report University of Bremen Germany SFB/TR 8: I1-[OntoSpace] I1-Transkriptionskonventionen Deliverable D5 I1-[OntoSpace]; Workpackages 4-6 Kerstin Fischer 2 March 2004 Version: 1.0 http://www.sfbtr8.uni-bremen.de/project.html?project=i1

Mehr

Kind 1, IS 10T. Seite 1

Kind 1, IS 10T. Seite 1 17:02:0-17:02:9 M was malst du denn /. 17:03:0-17:03:3 M zeig ma -. 17:04:5-17:05:5 K (p) ei + gross {ein Frosch} -. 17:05:8-17:06:0 K [gross {Frosch}] -. 17:05:9-17:06:0 M [hm] /. 17:06:8-17:07:0 K gross

Mehr

Aufbau eines Flexionslexikons für die Katalogbereinigung

Aufbau eines Flexionslexikons für die Katalogbereinigung Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de

Mehr

Korpus Beratungsgespräche (BG--)

Korpus Beratungsgespräche (BG--) 1 Institut für Deutsche Sprache, Mannheim Abteilung Pragmatik: Archiv für Gesprochenes Deutsch URL: http://agd.ids-mannheim.de 2014 IDS, Mannheim Korpus Beratungsgespräche (BG--) Korpus_Projekt_Kurzbeschreibung

Mehr

Florian Zipser Humboldt-Universität zu Berlin

Florian Zipser Humboldt-Universität zu Berlin Humboldt-Universität zu Berlin LAUDATIO Workshop 2014-10-07 1 Heterogene Domäne Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie 2 Heterogene Domäne Linguistische Daten und

Mehr

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung

Mehr

Gesprochenes Deutsch

Gesprochenes Deutsch Gesprochenes Deutsch Eine Einführung von Johannes Schwitalla ERICH SCHMIDT VERLAG 1. Für wen das Buch geschrieben ist und was man damit anfangen kann... 9 2. Was ist gesprochene Sprache?...14 2.1. Gesprochene

Mehr

Vorlesung Dokumentation und Datenbanken Klausur

Vorlesung Dokumentation und Datenbanken Klausur Dr. Stefan Brass 2. Juli 2002 Institut für Informatik Universität Giessen Vorlesung Dokumentation und Datenbanken Klausur Name: Geburtsdatum: Geburtsort: (Diese Daten werden zur Ausstellung des Leistungsnachweises

Mehr

Meilensteine des Spracherwerbs. Spontansprachkorpora. Referentinnen: Jasmin Jakob, Yuliya Khutko

Meilensteine des Spracherwerbs. Spontansprachkorpora. Referentinnen: Jasmin Jakob, Yuliya Khutko Meilensteine des Spracherwerbs Spontansprachkorpora Referentinnen: Jasmin Jakob, Yuliya Khutko Gliederung 1. Einleitung 2. Methode 3. Inter- und Intraindividuelle Variation im Morpho-Syntaxerwerb 4. Aufgabe

Mehr

Transkript zu Kap. 6.5

Transkript zu Kap. 6.5 Abschnitt 1 Präsentation (2/1) Präsentation (5/4) Präsentation (8/7) Präsentation (11/10) 1 Ich versuche gerade (...4s) ähm.. 2 eine Datei zu drucken 3 Aber der Drucker ist NICHT bereit den Papier. das

Mehr

1 Transkription gesprochener Sprache

1 Transkription gesprochener Sprache 1 Transkription gesprochener Sprache Wozu aufschreiben, was gesprochen und aufgezeichnet worden ist und deshalb leicht auch als Hörkonserve vermittelt werden kann? Und wenn aufschreiben, dann wie? Dieser

Mehr

Herausforderungen bei der Erstellung eines L1- Lernerkorpus

Herausforderungen bei der Erstellung eines L1- Lernerkorpus Herausforderungen bei der Erstellung eines L1- Lernerkorpus Lösungsvorschläge aus dem Projekt KoKo Aivars Glaznieks, Egon Stemle, Andrea Abel, Verena Lyding Institut für Fachkommunikation und Mehrsprachigkeit,

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Erstellung, Training und Evaluierung neuer Modelle für Hesitations- und Rezeptionsphänomene

Erstellung, Training und Evaluierung neuer Modelle für Hesitations- und Rezeptionsphänomene Arbeitsbericht No. 5 Erstellung, Training und Evaluierung neuer Modelle für Hesitations- und Rezeptionsphänomene Zusammenfassung des vierten Berichtes: Im Projektbericht No. 4 wurde die Erstellung, das

Mehr

# =#& ) "7 & A,B% 5,B%?A 6$, )C(C # A,B%",% #0A A &# +A %,&A6 C#- #4)C(C #

# =#& ) 7 & A,B% 5,B%?A 6$, )C(C # A,B%,% #0A A &# +A %,&A6 C#- #4)C(C # '34 (+,##(5#63 %(47 # 8#", 9/:;(/ +%9/:;(* 8#"< 9/:;( #%="(& "(& 5, " >1 # =#& ) "7 & &?+ @, A,B% 5,B%?A 6$, )C(C # +?#%#,6%#?/!"#$%&'("!%&)"(*+%''"'%"!&,-!".!/ @, A,B%",% #0A &A, 8%A,D,1D5"( A &# +A %,&A6

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was

Mehr

ordnet.dk Vernetzung zwischen Wörterbuch und Korpus

ordnet.dk Vernetzung zwischen Wörterbuch und Korpus ordnet.dk Vernetzung zwischen Wörterbuch und Korpus Jörg Asmussen Det Danske Sprog- og Litteraturselskab, DSL Gesellschaft für dänische Sprache und Literatur ordnet.dk Vernetzung 1. Das Projekt ordnet.dk

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Schwimmen und Sinken Sachunterricht in der 3. Klasse mit dem Material der Klassenkiste

Schwimmen und Sinken Sachunterricht in der 3. Klasse mit dem Material der Klassenkiste 1 Schwimmen und Sinken Sachunterricht in der 3. Klasse mit dem Material der Klassenkiste [1] [2] [3] [4] [5] [6] 0 1 2 Und wieso... Ihr habt das gestern erklärt. Wieso geht ein Knetklumpen, schüttelt rechte

Mehr

Thema: Prototypische Implementierung des Vektormodells

Thema: Prototypische Implementierung des Vektormodells Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Erkennung und Visualisierung attribuierter Phrasen in Poetiken Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung

Mehr

Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft

Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft Andreas Witt Institut für Deutsche Sprache, Mannheim Workshop Forschungsdaten WGL Geschäftsstelle Berlin 2012-05-10 Institut

Mehr

Dokumentation gesprochener Sprache. Wortsegmentierung. Dr. Tina John

Dokumentation gesprochener Sprache. Wortsegmentierung. Dr. Tina John Dokumentation gesprochener Sprache Wortsegmentierung Inhalt rechnergestützte Transkription Umgang mit dem Programm praat Segmentieren und Etikettieren Erkennen von Lautklassen anhand der Akustik der Laute

Mehr

Textkorpora als Ressourcen für die Digital Humanities: Chancen, Herausforderungen, Perspektiven

Textkorpora als Ressourcen für die Digital Humanities: Chancen, Herausforderungen, Perspektiven Textkorpora als Ressourcen für die Digital Humanities: Chancen, Herausforderungen, Perspektiven : Das BMBF-Projekt Ringvorlesung Digital Humanities: Die digitale Transformation der Geisteswissenschaften

Mehr

Treasury als Teil einer integrierten IT-Landschaft

Treasury als Teil einer integrierten IT-Landschaft 22. April 2015 Treasury als Teil einer integrierten IT-Landschaft Finanzoptimierung als Thema der IT SAP IT Summit Österreich 2015 Klassifizierung: Vertraulich-Extern TREASURY ALS TEIL EINER INTEGRIERTEN

Mehr

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr

Übung: Phonetische Transkription

Übung: Phonetische Transkription Institut für Phonetik, Universität des Saarlandes Übung: Phonetische Transkription 21.01.2015 Phonemische vs. phonetische Transkription; Transkription des Deutschen Prüfungen Klausur: 02.02.2015, 12:00

Mehr

Korpusbasierte Analyse internetbasierter Kommunikation: Herausforderungen und Perspektiven

Korpusbasierte Analyse internetbasierter Kommunikation: Herausforderungen und Perspektiven Korpusbasierte Analyse internetbasierter Kommunikation: Herausforderungen und Perspektiven Neue Wege in der Nutzung von Korpora: Data-Mining für die textorientierten Geisteswissenschaften Fachtagung, 30.

Mehr

Dante Bemabei. Der Bindestrich. Vorschlas zur Systematisierung. PETER LANG Europäischer Verla3 der Wissenschaften

Dante Bemabei. Der Bindestrich. Vorschlas zur Systematisierung. PETER LANG Europäischer Verla3 der Wissenschaften Dante Bemabei Der Bindestrich Vorschlas zur Systematisierung PETER LANG Europäischer Verla3 der Wissenschaften Inhaltsverzeichnis 1 EINLEITUNG 11 2 EINFÜHRUNG IN DIE PROBLEMATIK 14 2.1 Historische Aspekte

Mehr

Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901

Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901 Doris Jansen-Tang Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901 Historische Entwicklung, Analyse und Vorschläge zur Veränderung der Duden-Norm, unter besonderer Berücksichtigung

Mehr

Datenvorverarbeitung von nominalen Daten für Data Mining

Datenvorverarbeitung von nominalen Daten für Data Mining Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1 Gliederung Datenvorverarbeitung Prepared

Mehr

5. Klasse Mathematik; Gymnasium; die erste Mathematikstunde im Schuljahr

5. Klasse Mathematik; Gymnasium; die erste Mathematikstunde im Schuljahr 5. Klasse Mathematik; Gymnasium; die erste Mathematikstunde im Schuljahr [x sec.]= längere Pause / = Anheben (vom Ton) der Stimme \ = Absenken (vom Ton) der Stimme nicht verständlicher Teil - = Ziehen

Mehr

Syntaktische Tendenzen der Gegenwartssprache

Syntaktische Tendenzen der Gegenwartssprache Syntaktische Tendenzen der Gegenwartssprache Anforderungen: Regelmäßige Teilnahme: max. 2 Fehlzeiten Vorbereitung auf die Sitzung: Text lesen, Fragen notieren, mitdiskutieren (!) Leitung einer Sitzung

Mehr

Ausbaubarkeit und Verfeinerbarkeit (Zwiebelprinzip) Lesbarkeit eigenes Transkriptionssystem erforderlich

Ausbaubarkeit und Verfeinerbarkeit (Zwiebelprinzip) Lesbarkeit eigenes Transkriptionssystem erforderlich Allgemeines (1) Transkription = Verschriftlichung von akustischen oder audiovisuellen Gesprächsprotokollen nach festgelegten Notationsregeln (Uni Freiburg Online-Tutorial) versch. Stellen eines Gesprächs

Mehr

Kind 39, IS 4T. Seite 1

Kind 39, IS 4T. Seite 1 14:30:3-14:31:2 K (quengelt). 14:31:3-14:31:6 K [(quengelt weiter)]. 14:31:3-14:31:4 M [au] -. 14:31:7-14:33:8 K [(quengelt weiter)]. 14:31:7-14:32:1 M [paß ma auf] \. 14:34:0-14:35:3 M tun wa {wir} alle

Mehr

Die folgende Umfrage beschäftigt sich mit der Verwendung von neuen Technologien im Fremdsprachenunterricht.

Die folgende Umfrage beschäftigt sich mit der Verwendung von neuen Technologien im Fremdsprachenunterricht. Einführung zur Umfrage Die folgende Umfrage beschäftigt sich mit der Verwendung von neuen Technologien im Fremdsprachenunterricht. Warum machen Sie diese Umfrage? In dieser Umfrage möchten wir die Verbreitung

Mehr

Übersicht TranskriptionsRegeln

Übersicht TranskriptionsRegeln Übersicht TranskriptionsRegeln Für die Ausarbeitung von Transkriptionen wurden verschiedene Transkriptionsregeln entwickelt. Je nachdem für welchen Zweck die Transkription nötig ist, können diese relativ

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

So bewerten Sie einen Test

So bewerten Sie einen Test Fortgeschrittene Themen der statistische maschinelle Übersetzung (Advanced SMT) Evaluierung Miriam Kaeshammer Heinrich-Heine-Universität Düsseldorf Folien angepasst von T. Schoenemann Wintersemester 2014/15

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von

Mehr

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:

Mehr

Text & Illustration Iris Mielke. Unfug. kieltier

Text & Illustration Iris Mielke. Unfug. kieltier Text & Illustration Iris Mielke Unfug kieltier kieltier dipl. Kommunikationsdesign Iris Mielke 24118 Kiel www.kieltier.de info@kieltier.de 0431-57 963 57 1 100 August 2010 101 2100 September 2010 Druck:

Mehr

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Gesprochene und geschriebene Sprache (1/8) je nach Medium: diamesische Varietät

Gesprochene und geschriebene Sprache (1/8) je nach Medium: diamesische Varietät Gesprochene und geschriebene Sprache (1/8) gesprochene Sprache je nach Medium: diamesische Varietät Schriftsprache Ø spontan / flüchtig Ø der Empfänger verfügt über dieselbe situative Information wie der

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction

Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction Vorstellung AI-Studienprojekt für das SoSe 2019 Benedikt Tobias Bönninghoff 17.01.2019 Cognitive Signal Processing

Mehr

1. Doppelstunde: Zieht ein Magnet überall gleich stark an? Die Entdeckung der Pole am Magneten als Orte der stärksten Anziehung

1. Doppelstunde: Zieht ein Magnet überall gleich stark an? Die Entdeckung der Pole am Magneten als Orte der stärksten Anziehung Transkript 1. Unterrichtseinheit zum Thema Magnet: Magnetismus 1. Doppelstunde: Zieht ein Magnet überall gleich stark an? Die Entdeckung der Pole am Magneten als Orte der stärksten Anziehung Szene 2: Erarbeitung

Mehr

Statistical Text Segmentation with Partial Structure Analysis. Felix Golcher - Humboldt Universität zu Berlin

Statistical Text Segmentation with Partial Structure Analysis. Felix Golcher - Humboldt Universität zu Berlin Statistical Text Segmentation with Partial Structure Analysis Felix Golcher - Humboldt Universität zu Berlin Das Problem Zerlegung am Leerzeichen greift zu kurz: Zu weit gehende Zerlegungen: im Laufe der

Mehr

Geschichte der Psycholinguistik

Geschichte der Psycholinguistik Wörter und Morpheme Buchstaben à Zeichen für Sprachlaute Wörter à Zeichen für Bedeutung, Begriffe oder Konzepte Die Relation von Wort zu Bedeutung ist relativ beliebig (Pinker, 1994); z.b.: Hund = chien

Mehr