ORTHOGRAPHISCHE NORMALISIERUNG GESPROCHENER SPRACHE
|
|
- Marie Hase
- vor 7 Jahren
- Abrufe
Transkript
1 ORTHOGRAPHISCHE NORMALISIERUNG UND POS-TAGGING VON TRANSKRIPTIONEN GESPROCHENER SPRACHE Thomas Schmidt, IDS Mannheim
2 FOLK Forschungs- und Lehrkorpus gesprochenes Deutsch Großes, breit stratifiziertes, computergestützt verarbeitbares, öffentlich verfügbares Korpus deutscher Gespräche Seit 2008 am IDS Erstes offizielles Release: Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch (DGD2) Ca. 70h Audio-Aufnahmen, ca transkribierte Wort- Tokens Weiter im Aufbau
3 Gliederung (semi-)automatisierte Normalisierung literarischer Umschrift in FOLK Literarische Umschrift Orthographische Normalisierung Automatisierung / Evaluation Verbesserungsmöglichkeiten (semi-)automatisiertes POS-Tagging von Transkriptionen
4 Literarische Umschrift = Repräsentation von Mündlichkeit, so wie in der (schönen) Literatur üblich Sei glöcklich, du gutes Kend [Sesemi Weichbrodt, Buddenbrooks] Zwirner/Bethge (1958): Deutsche Mundarten Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen Selting et. al. (1998): Gesprächsanalytisches Transkriptionssystem Modified Orthography, Eye dialect, Orthographe adaptée I wuz de on y one dat had much. So I stuck out for mo dan fo dollars, en I said [ ] [Jim, Adventures of Huckleberry Finn] b'jour, chais pas [Convention ICOR, CLAPI Lyon]
5 Literarische Umschrift
6 Literarische Umschrift Ellisionen Verschleifungen Assimilationen dialektale Färbungen generelle Kleinschreibung
7 Literarische Umschrift Warum nicht Standardorthographie? relevante Charakteristika der Mündlichkeit (hist.) visuelle Abgrenzung von geschriebenem Text Warum nicht phonetische Umschrift? Arbeitsökonomie Zugänglichkeit / Lesbarkeit Verlust morphologischer/lexikalischer Systematik
8 Literarische Umschrift Bewusstes Abweichen von schriftsprachlichen Standards Regelgeleitet? Von der Orthographie soll [ ] abgewichen werden, wo der gesprochene Laut durch einen anderen Buchstaben [ ] besser wiedergegeben wird [Zwirner/Bethge 1958] standardsprachliche Realisierungen Standardorthographie, nicht-standardsprachliche Realisierungen literarische Umschrift [ ] abweichende Ausdrücke werden [ ] nachgebildet, wenn sie vereinzelt auftreten [ ], allgemein verbreitete Phänomene [ ] werden nicht notiert [Rehbein et al. 1993] Beispiellisten bei HIAT, GAT, Verbmobil (süddeutsch) [lustik] lustig? lustick? lustik? (norddeutsch) [stain]???
9 Warum normalisieren? Vorhersagbarkeit bei Suchen nein, nee, na, ne, neeh, nehee, nö, näh, nää bleibsch, bleibscht, gebliewe, gebliwwe Anwendung von NLP-Methoden Lemmatisierung POS-Tagging syntaktische Annotation etc.
10 FOLK-Annotationsebenen Transkription da gehst de jetz einfach über dem bild Normalisierung da gehst du jetzt einfach über dem Bild Lemmatisierung da gehen du jetzt einfach über d Bild POS ADV VFIN PPER ADV ADJD APPR ART NN Maskierung 2h-10h Transkription / Kontrolle 30h-80h Korrekturen Effektivierung des Workflows: Beschleunigung Vereinfachung Normalisierung 1h-5h POS-Tagging 3h-5h
11 Normalisierungsregeln Interpretationsarme Annäherung an Standardorthographie Normalisierung auf Ebene von Lexikon und Morphosyntax, keine syntaktischen oder stilistischen Korrekturen Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti) redaktionell bevorzugte Varianten Explizite Regelungen für Interjektionen: Häsitationen, Rezeptionssignale, Frageanhängsel etc. Unvollständige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrüche, fragmentierte Wörter Umgangssprachliche Verkürzungen Diskussion und Dokumentation von Einzelfallentscheidungen Konsistenz
12 Zweifelsfälle Normalisierungsregeln Rekonstruktion von Abbrüchen Kontraktionen hammers haben wir es kannst kannst Du? durchs durch das zum zu dem? [ugs.]? / Frequenz?
13 Evaluation 22 manuell normalisierte Transkriptionen aus FOLK Wort-Tokens, Wort-Types Quote: Ø29.89% / max % / min % Häufige Typen: Klein- Großschreibung: 12.99% Ergänzung / Klassifizierung unvollständiger Formen: 6.49% Häsitation (ähm äh): 1.46% 18 Trainings- / 4 Evaluationsdaten
14 Lexikonbasiert Automatisierung Transkribierte Form W mehr als n-mal zu Form W normalisiert Zuweisung von Form W Nur großgeschriebene Variante in DeReWo Großschreibung
15 Automatisierung Schwellenwert Precision Recall Error % 84.14% 17.80% % 77.50% 16.67% % 74.30% 16.41% % 61.70% 11.89% % 53.88% 12.71% höhere Präzision inakzeptabler Recall deutliche Erleichterung der manuellen Korrektur mehr Lexikondaten Erhöhung von Precision und Recall? keine Annäherung an 100%
16 Phänomenologie: Lexikon Eindeutige Fälle Mehrdeutige Fälle heut heute 67 hallgewersignal Hallgebersignal 3 mein mein 115 frag frage 19 sache Sache 19 ma mal 280 a a 109 meine 39 frag 2 sagen 16 man 221 ah 17 meinen 2 Frage 1 Sachen 1 wir 123 auch 8 meiner 1 % 3 aber 7 # 2 an 5 ma 2 ach 2 mir 2 acht 2 Mama 1 also 2 mach 1 abgestanden 1 machen 1 akut 1 meinst 1 alles 1 als 1
17 Phänomenologie: Lexikon Regelmäßigkeiten abbaue abbauen 2 abgezoge abgezogen 2 abklopfe abklopfen 2 absetze absetzen 1 abstelle abstellen 1 abwende abwenden 1 abziehe abziehen 1 achte achten 1 alte alten 1 andere anderen 3 anfange anfangen 1 angebe angeben 1 angesproche angesprochen 1 anrufe anrufen 1 abzieh abziehe 2 akzeptier akzeptiere 1 all alle 1 anfang anfange 1 anhab anhabe 1 aufmach aufmache 1 bau baue 1 bedank bedanke 1 behandel behandele 1 beinah beinahe 1 bekomm bekomme 1 bereu bereue 1 bestell bestelle 3 besuch besuche 1 bleib bleibe 2 brauch brauche 33
18 Phänomenologie: Lexikon Ähnlichkeiten abber aber ankucken angucken gsagt gesagt hintn hinten isch ich odder oder sauwer sauber schaun schauen spieln spielen verdrehn verdrehen warn waren widder wieder würdst würdest zusammenarbeiden zusammenarbeiten zusammengearbeidet zusammengearbeitet (Levenshtein-Distanz) ansonschten ansonsten aufgawestellung Aufgabenstellung besserwischerisch besserwisserisch blätterteigstücksche Blätterteigstückchen eklichem ekligem gescheüber gegenüber geschtern gestern hihänge hinhängen karteikarde Karteikarten linsensup Linsensuppe näkschten nächsten runnergugge runtergucken spätdiensch Spätdienst wollis Wallace (Phonetische Distanz)
19 Phänomenologie: Fehler kann s losgehn also ihr sollt au jetzt ganz normal reden es losgehen auch es sollte auch un dann gehste bis zur höhe des toasters bei dem bildrand des toasters n stückchen und gehst du zu der Höhe Toasters Bildrand Toasters ein Stückchen und gehst du zu der Höhe das Bildrand das ein Stückchen da so n mann mit n stück fleisch ein Mann einem Stück Fleisch ein Mann ein Stück Fleisch watte ma watte ma wo soll ich lang warte mal warte mal Watte mal Watte mal
20 Verbesserung der automatischen Normalisierung Ermittlung von Kandidaten (Recall) Abgleich mit bereits normalisierten Formen Abgleich mit Wortliste (DeReWo) Ermittlung von möglichen Normalisierungen aus bereits normalisierten Formen ähnliche Formen aus Wortliste (Regeln: n-ellision, e-ellision)? Entscheidung zwischen Alternativen (Precision) einfache Häufigkeiten aus FOLK einfache Häufigkeiten aus anderen Korpora? (kombinatorische Häufigkeiten)?
21 FOLK-Lexikon DeReWo etc. Transkribierte Form Bereits normalisiert? nein In Wortliste? ja keine Normalisierung ja nein Normalisierte Form(en) Häufigkeit in FOLK Ähnliche Form(en) Häufigkeit in DeReKo Kandidatenliste n-gram-häufigkeiten? Auswahl Manuelle Korrektur (OrthoNormal) Normalisierte Form
22 Effektivierung der manuellen Korrektur
23 Effektivierung der manuellen Korrektur
24 Effektivierung der manuellen Korrektur
25 Test: POS-Tagging TreeTagger / STTS / Default -Parameterdatei 3 manuell korrigierte Transkripte aus Tesdatensatz Fehlerquoten: Transkript1 Transkript2 Transkript3 Gesamt literarische Umschrift 33.22% 29.96% 31.33% 31.39% normalisiert 18.79% 18.62% 19.5% 18.84% (optimiert) 13.38% 11.52% 16.13% (vereinfacht) 8.7% 7.5% 11.9%
26 Zusammenfassung Brauchbare Automatisierung durch lexikonbasierte Verfahren Annäherung an 100% vorerst nicht realistisch Weitere Verbesserungen möglich durch größere/andere Lexika Ermitteln ähnlicher Formen als Kandidaten verfeinerte Methoden zur Auswahl des besten Kandidaten Effektivierung manueller Korrektur
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrThomas Schmidt, Dolores Batinić DAS FORSCHUNGS- UND LEHRKORPUS GESPROCHENES DEUTSCH (FOLK) ALS QUELLE FÜR LEXIKOGRAPHISCHE ARBEIT
Thomas Schmidt, Dolores Batinić DAS FORSCHUNGS- UND LEHRKORPUS GESPROCHENES DEUTSCH (FOLK) ALS QUELLE FÜR LEXIKOGRAPHISCHE ARBEIT GLIEDERUNG (1) FOLK ein Gesprächskorpus Daten, Annotationen, Design / Stratifikation
MehrWortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin
Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich
Mehr2.3 Was wird von den Transkribierenden erwartet?
skriptionszeichen zudem darauf zu achten, dass diese mit der genutzten Software kompatibel sind. 2.3 Was wird von den Transkribierenden erwartet? Neben sehr guten Kenntnissen der deutschen Rechtschreibung,
MehrTranskriptionsaufwand
Jenny Winterscheid Transkriptionsaufwand Bearbeitungsstand: 29.05.2015 Da die Produktion gesprochener Sprache in mündlicher Interaktion ein schnell ablaufendes Geschehen darstellt (Selting 2001, 1059),
MehrPOS für(s) FOLK Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch
Swantje Westpfahl, Thomas Schmidt POS für(s) FOLK Part of Speech Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch 1 Einleitung Im Rahmen des FOLK-Projekts (Forschungs- und Lehrkorpus Gesprochenes
MehrThomas Schmidt & Arnulf Deppermann Institut für Deutsche Sprache, Mannheim
Data Sharing Best Practice und Perspektiven: Archiv für Gesprochenes Deutsch Thomas Schmidt & Arnulf Deppermann Institut für Deutsche Sprache, Mannheim Gliederung 1. Hintergrund IDS und (AGD) Datenbank
MehrWintersemester / Vorlesung: Methoden der empirischen Sozialforschung / Lehrstuhl für Mikrosoziologie / Prof. Dr. Karl Lenz
Vorlesung im Sommersemester 2009 Prof. Dr. Karl Lenz Methoden der empirischen Sozialforschung III. Komplex: Qualitative Forschungsmethoden Folien zur Vorlesung im Netz: https://bildungsportal.sachsen.de/opal/
MehrEinführung in die Computerlinguistik
Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen
MehrNutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner
Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV September 2015 David Stoppel, Franziska Wallner Einleitung Die Lemmalisten liefern Häufigkeitsangaben für Wörter der deutschen gesprochenen
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrDGD die Datenbank für Gesprochenes Deutsch DGD the Database of Spoken German
Erschienen in: Zeitschrift für germanistische Linguistik Jg. 45 (2017), Nr. 3. S. 451-463 Ressourcen Thomas Schmidt* DGD die Datenbank für Gesprochenes Deutsch DGD the Database of Spoken German Mündliche
MehrTRANSKRIPTION. Transkription Methode. TRANSKRIPTION Wozu?
Verschriftung von akustischen (audiovisuellen) Gesprächsprotokollen nach festgelegten Notationsregeln. Beat Siebenhaar 2! Wozu? Gespräche / Tonaufnahmen festhalten Überblick über Gesprächsverlauf Möglichkeit
MehrHessler, Steffen / Pottmann, Daniel. Transkriptionskonventionen für das Ruhrdeutsche
Hessler, Steffen / Pottmann, Daniel Transkriptionskonventionen für das Ruhrdeutsche Transkripte des Alt- und Neukorpus des KgSR-Projekts 1 I. Minimaltranskripte mit dem Transkriptionseditor FOLKER Der
MehrErweiterung des STTS für gesprochene Sprache
Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart
MehrGI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten. Jennifer Krisch Daimler AG
GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten Jennifer Krisch Daimler AG Inhalte 1 Motivation 2 Was sind Weak-Words? 3 Vorgehen bei der Analyse 4 Evaluation
MehrANNIS Quickstart
Suche in ANNIS Bevor man suchen kann, muss das gewünschte Korpus in der Korpusliste ausgewählt werden (z.b. das Teilkorpus mo (monoethnisches Ergänzungskorpus) oder KiDKo mu (multiethnisches Korpus). Danach
MehrKorpuslinguistik IDS-Korpora und COSMAS II
Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche
MehrKurzbeschreibung der Transkriptionsverfahren
Transkription: Transkriptionssysteme Ralf Knöbl, Kerstin Steiger Zur Verschriftung alltäglicher Gespräche sind unterschiedliche Systeme entwickelt worden. Die prominentesten und weitesten verbreitete Systeme
MehrNorbert Dittmar. Transkription. Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien. 3. Auflage III VS VERLAG FÜR SOZIALWISSENSCHAFTEN
Norbert Dittmar Transkription Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien 3. Auflage III VS VERLAG FÜR SOZIALWISSENSCHAFTEN Inhalt 0. Vorwort 9 1. Kulturtechniken der Verdauerung flüchtiger
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrGleiche Daten, unterschiedliche Erkenntnisziele?
Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität
MehrDas Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten
Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner
MehrElektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
MehrKorpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrWintersemester 2006-07 / Vorlesung: Methoden der empirischen Sozialforschung / Lehrstuhl für Mikrosoziologie / Prof. Dr. Karl Lenz
Vorlesung im Wintersemester 2006-07 Prof. Dr. Karl Lenz Methoden der empirischen Sozialforschung III. Komplex: Qualitative Forschungsmethoden Folien zur Vorlesung im Netz: www.tu-dresden.de/phfis/lenz
MehrGraphematische Transkription in Soziolekte
Wi froh bin i, daß i weg bin! Besta Frund, was isch das Herz des Menscha! wie froh bin ich, daß ich weg pin! Oida! beester freund, Was ist Das herz DeS menschen! - Goethe: Die Leiden des jungen Werther
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrGesprächsanalytisches Transkriptionssystem (GAT) Margret Selting et al. (1998) von Christina Blaß und Juliane Schmidt
Universität des Saarlandes Fak. 4.7 Seminar: Interaktionale Phonetik (Köser) Gesprächsanalytisches Transkriptionssystem (GAT) Margret Selting et al. (1998) von Christina Blaß und Juliane Schmidt Überblick
MehrKorpus Schlichtungs- und Gerichtsverhandlungen (SG--)
1 Institut für Deutsche Sprache, Mannheim Abteilung Pragmatik: Archiv für Gesprochenes Deutsch URL: http://agd.ids-mannheim.de 2014 IDS, Mannheim Korpus Schlichtungs- und Gerichtsverhandlungen (SG--) Korpus_Projekt_Kurzbeschreibung
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrStrukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs
Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand
MehrKI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk
Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am 23.10.2006 Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk Übersicht Aufgabenstellung
MehrVOM ANALOGEN ARCHIV ZUM DIGITALEN FORSCHUNGSDATENZENTRUM
Thomas Schmidt VOM ANALOGEN ARCHIV ZUM DIGITALEN FORSCHUNGSDATENZENTRUM Aktuelle Herausforderungen im Archiv für Gesprochenes Deutsch (AGD) GLIEDERUNG Vom analogen Archiv zum digitalen Forschungsdatenzentrum
MehrCaren Brinckmann / Noah Bubenhofer
Caren Brinckmann / Noah Bubenhofer Sagen kann man's schon, nur schreiben tut man's selten Die tun-periphrase Und naja, ansonsten noch Wörter tun, machen, kriegen soll man nicht sagen, weil das sind Wörter,
MehrInformation-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrKGSR-Transkriptionskonventionen 1
KGSR-Transkriptionskonventionen 1 Stand: 16.05.2011 Inhalt 1 Transkript-Design... 1 1.1 Partiturschreibung... 2 1.2 Transkriptionsspuren... 2 1.2.1 Literarische Umschrift... 2 1.2.2 Standardorthographische
MehrBei schönen Päckchen Auffälligkeiten beschreiben und begründen Transkripte zu den Videos
Päckchen: 5 + 5 = 10 6 + 4 = 10 7 + 3 = 10 8 + 2 = 10 9 + 1= 10 + = + = Önder 1 I: Dann nehmen wir mal die nächsten Aufgaben Ö: Das wird immer schwerer, ne? I: Ja, schaun wir mal. Schau dir auch hier,
MehrNeue Funktionen in der KorpusSuchmaschine ANNIS 3.1
Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1 Thomas Krause 1 Vorkenntnisse??? 2 Hands On Im Browser (möglichst Firefox oder Chrome) https://korpling.german.hu-berlin.de/annis3/ aufrufen Nachfragen!
MehrVon Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte
Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und
MehrThomas Schmidt, Sylvia Dickgießer, Joachim Gasch 1
Die Datenbank für Gesprochenes Deutsch - DGD2 Thomas Schmidt, Sylvia Dickgießer, Joachim Gasch 1 1. Einleitung Die Datenbank für Gesprochenes Deutsch (DGD2) ist ein Korpusmanagementsystem im Archiv für
MehrI1-Transkriptionskonventionen
OntoSpace Project Report University of Bremen Germany SFB/TR 8: I1-[OntoSpace] I1-Transkriptionskonventionen Deliverable D5 I1-[OntoSpace]; Workpackages 4-6 Kerstin Fischer 2 March 2004 Version: 1.0 http://www.sfbtr8.uni-bremen.de/project.html?project=i1
MehrKind 1, IS 10T. Seite 1
17:02:0-17:02:9 M was malst du denn /. 17:03:0-17:03:3 M zeig ma -. 17:04:5-17:05:5 K (p) ei + gross {ein Frosch} -. 17:05:8-17:06:0 K [gross {Frosch}] -. 17:05:9-17:06:0 M [hm] /. 17:06:8-17:07:0 K gross
MehrAufbau eines Flexionslexikons für die Katalogbereinigung
Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de
MehrKorpus Beratungsgespräche (BG--)
1 Institut für Deutsche Sprache, Mannheim Abteilung Pragmatik: Archiv für Gesprochenes Deutsch URL: http://agd.ids-mannheim.de 2014 IDS, Mannheim Korpus Beratungsgespräche (BG--) Korpus_Projekt_Kurzbeschreibung
MehrFlorian Zipser Humboldt-Universität zu Berlin
Humboldt-Universität zu Berlin LAUDATIO Workshop 2014-10-07 1 Heterogene Domäne Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie 2 Heterogene Domäne Linguistische Daten und
MehrINFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
MehrGesprochenes Deutsch
Gesprochenes Deutsch Eine Einführung von Johannes Schwitalla ERICH SCHMIDT VERLAG 1. Für wen das Buch geschrieben ist und was man damit anfangen kann... 9 2. Was ist gesprochene Sprache?...14 2.1. Gesprochene
MehrVorlesung Dokumentation und Datenbanken Klausur
Dr. Stefan Brass 2. Juli 2002 Institut für Informatik Universität Giessen Vorlesung Dokumentation und Datenbanken Klausur Name: Geburtsdatum: Geburtsort: (Diese Daten werden zur Ausstellung des Leistungsnachweises
MehrMeilensteine des Spracherwerbs. Spontansprachkorpora. Referentinnen: Jasmin Jakob, Yuliya Khutko
Meilensteine des Spracherwerbs Spontansprachkorpora Referentinnen: Jasmin Jakob, Yuliya Khutko Gliederung 1. Einleitung 2. Methode 3. Inter- und Intraindividuelle Variation im Morpho-Syntaxerwerb 4. Aufgabe
MehrTranskript zu Kap. 6.5
Abschnitt 1 Präsentation (2/1) Präsentation (5/4) Präsentation (8/7) Präsentation (11/10) 1 Ich versuche gerade (...4s) ähm.. 2 eine Datei zu drucken 3 Aber der Drucker ist NICHT bereit den Papier. das
Mehr1 Transkription gesprochener Sprache
1 Transkription gesprochener Sprache Wozu aufschreiben, was gesprochen und aufgezeichnet worden ist und deshalb leicht auch als Hörkonserve vermittelt werden kann? Und wenn aufschreiben, dann wie? Dieser
MehrHerausforderungen bei der Erstellung eines L1- Lernerkorpus
Herausforderungen bei der Erstellung eines L1- Lernerkorpus Lösungsvorschläge aus dem Projekt KoKo Aivars Glaznieks, Egon Stemle, Andrea Abel, Verena Lyding Institut für Fachkommunikation und Mehrsprachigkeit,
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrErstellung, Training und Evaluierung neuer Modelle für Hesitations- und Rezeptionsphänomene
Arbeitsbericht No. 5 Erstellung, Training und Evaluierung neuer Modelle für Hesitations- und Rezeptionsphänomene Zusammenfassung des vierten Berichtes: Im Projektbericht No. 4 wurde die Erstellung, das
Mehr# =#& ) "7 & A,B% 5,B%?A 6$, )C(C # A,B%",% #0A A &# +A %,&A6 C#- #4)C(C #
'34 (+,##(5#63 %(47 # 8#", 9/:;(/ +%9/:;(* 8#"< 9/:;( #%="(& "(& 5, " >1 # =#& ) "7 & &?+ @, A,B% 5,B%?A 6$, )C(C # +?#%#,6%#?/!"#$%&'("!%&)"(*+%''"'%"!&,-!".!/ @, A,B%",% #0A &A, 8%A,D,1D5"( A &# +A %,&A6
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
Mehrordnet.dk Vernetzung zwischen Wörterbuch und Korpus
ordnet.dk Vernetzung zwischen Wörterbuch und Korpus Jörg Asmussen Det Danske Sprog- og Litteraturselskab, DSL Gesellschaft für dänische Sprache und Literatur ordnet.dk Vernetzung 1. Das Projekt ordnet.dk
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrSchwimmen und Sinken Sachunterricht in der 3. Klasse mit dem Material der Klassenkiste
1 Schwimmen und Sinken Sachunterricht in der 3. Klasse mit dem Material der Klassenkiste [1] [2] [3] [4] [5] [6] 0 1 2 Und wieso... Ihr habt das gestern erklärt. Wieso geht ein Knetklumpen, schüttelt rechte
MehrThema: Prototypische Implementierung des Vektormodells
Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Hauptseminar: Information Retrieval WS 06/07 Thema: Prototypische Implementierung des Vektormodells Sascha Orf Carina Silberer Cäcilia
MehrKorrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrErkennung und Visualisierung attribuierter Phrasen in Poetiken
Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung
MehrForschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft
Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft Andreas Witt Institut für Deutsche Sprache, Mannheim Workshop Forschungsdaten WGL Geschäftsstelle Berlin 2012-05-10 Institut
MehrDokumentation gesprochener Sprache. Wortsegmentierung. Dr. Tina John
Dokumentation gesprochener Sprache Wortsegmentierung Inhalt rechnergestützte Transkription Umgang mit dem Programm praat Segmentieren und Etikettieren Erkennen von Lautklassen anhand der Akustik der Laute
MehrTextkorpora als Ressourcen für die Digital Humanities: Chancen, Herausforderungen, Perspektiven
Textkorpora als Ressourcen für die Digital Humanities: Chancen, Herausforderungen, Perspektiven : Das BMBF-Projekt Ringvorlesung Digital Humanities: Die digitale Transformation der Geisteswissenschaften
MehrTreasury als Teil einer integrierten IT-Landschaft
22. April 2015 Treasury als Teil einer integrierten IT-Landschaft Finanzoptimierung als Thema der IT SAP IT Summit Österreich 2015 Klassifizierung: Vertraulich-Extern TREASURY ALS TEIL EINER INTEGRIERTEN
MehrImplementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
MehrÜbung: Phonetische Transkription
Institut für Phonetik, Universität des Saarlandes Übung: Phonetische Transkription 21.01.2015 Phonemische vs. phonetische Transkription; Transkription des Deutschen Prüfungen Klausur: 02.02.2015, 12:00
MehrKorpusbasierte Analyse internetbasierter Kommunikation: Herausforderungen und Perspektiven
Korpusbasierte Analyse internetbasierter Kommunikation: Herausforderungen und Perspektiven Neue Wege in der Nutzung von Korpora: Data-Mining für die textorientierten Geisteswissenschaften Fachtagung, 30.
MehrDante Bemabei. Der Bindestrich. Vorschlas zur Systematisierung. PETER LANG Europäischer Verla3 der Wissenschaften
Dante Bemabei Der Bindestrich Vorschlas zur Systematisierung PETER LANG Europäischer Verla3 der Wissenschaften Inhaltsverzeichnis 1 EINLEITUNG 11 2 EINFÜHRUNG IN DIE PROBLEMATIK 14 2.1 Historische Aspekte
MehrZiele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901
Doris Jansen-Tang Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901 Historische Entwicklung, Analyse und Vorschläge zur Veränderung der Duden-Norm, unter besonderer Berücksichtigung
MehrDatenvorverarbeitung von nominalen Daten für Data Mining
Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1 Gliederung Datenvorverarbeitung Prepared
Mehr5. Klasse Mathematik; Gymnasium; die erste Mathematikstunde im Schuljahr
5. Klasse Mathematik; Gymnasium; die erste Mathematikstunde im Schuljahr [x sec.]= längere Pause / = Anheben (vom Ton) der Stimme \ = Absenken (vom Ton) der Stimme nicht verständlicher Teil - = Ziehen
MehrSyntaktische Tendenzen der Gegenwartssprache
Syntaktische Tendenzen der Gegenwartssprache Anforderungen: Regelmäßige Teilnahme: max. 2 Fehlzeiten Vorbereitung auf die Sitzung: Text lesen, Fragen notieren, mitdiskutieren (!) Leitung einer Sitzung
MehrAusbaubarkeit und Verfeinerbarkeit (Zwiebelprinzip) Lesbarkeit eigenes Transkriptionssystem erforderlich
Allgemeines (1) Transkription = Verschriftlichung von akustischen oder audiovisuellen Gesprächsprotokollen nach festgelegten Notationsregeln (Uni Freiburg Online-Tutorial) versch. Stellen eines Gesprächs
MehrKind 39, IS 4T. Seite 1
14:30:3-14:31:2 K (quengelt). 14:31:3-14:31:6 K [(quengelt weiter)]. 14:31:3-14:31:4 M [au] -. 14:31:7-14:33:8 K [(quengelt weiter)]. 14:31:7-14:32:1 M [paß ma auf] \. 14:34:0-14:35:3 M tun wa {wir} alle
MehrDie folgende Umfrage beschäftigt sich mit der Verwendung von neuen Technologien im Fremdsprachenunterricht.
Einführung zur Umfrage Die folgende Umfrage beschäftigt sich mit der Verwendung von neuen Technologien im Fremdsprachenunterricht. Warum machen Sie diese Umfrage? In dieser Umfrage möchten wir die Verbreitung
MehrÜbersicht TranskriptionsRegeln
Übersicht TranskriptionsRegeln Für die Ausarbeitung von Transkriptionen wurden verschiedene Transkriptionsregeln entwickelt. Je nachdem für welchen Zweck die Transkription nötig ist, können diese relativ
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrSo bewerten Sie einen Test
Fortgeschrittene Themen der statistische maschinelle Übersetzung (Advanced SMT) Evaluierung Miriam Kaeshammer Heinrich-Heine-Universität Düsseldorf Folien angepasst von T. Schoenemann Wintersemester 2014/15
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von
MehrÜberblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:
MehrText & Illustration Iris Mielke. Unfug. kieltier
Text & Illustration Iris Mielke Unfug kieltier kieltier dipl. Kommunikationsdesign Iris Mielke 24118 Kiel www.kieltier.de info@kieltier.de 0431-57 963 57 1 100 August 2010 101 2100 September 2010 Druck:
MehrViterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes
Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrGesprochene und geschriebene Sprache (1/8) je nach Medium: diamesische Varietät
Gesprochene und geschriebene Sprache (1/8) gesprochene Sprache je nach Medium: diamesische Varietät Schriftsprache Ø spontan / flüchtig Ø der Empfänger verfügt über dieselbe situative Information wie der
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
MehrImproving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction
Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction Vorstellung AI-Studienprojekt für das SoSe 2019 Benedikt Tobias Bönninghoff 17.01.2019 Cognitive Signal Processing
Mehr1. Doppelstunde: Zieht ein Magnet überall gleich stark an? Die Entdeckung der Pole am Magneten als Orte der stärksten Anziehung
Transkript 1. Unterrichtseinheit zum Thema Magnet: Magnetismus 1. Doppelstunde: Zieht ein Magnet überall gleich stark an? Die Entdeckung der Pole am Magneten als Orte der stärksten Anziehung Szene 2: Erarbeitung
MehrStatistical Text Segmentation with Partial Structure Analysis. Felix Golcher - Humboldt Universität zu Berlin
Statistical Text Segmentation with Partial Structure Analysis Felix Golcher - Humboldt Universität zu Berlin Das Problem Zerlegung am Leerzeichen greift zu kurz: Zu weit gehende Zerlegungen: im Laufe der
MehrGeschichte der Psycholinguistik
Wörter und Morpheme Buchstaben à Zeichen für Sprachlaute Wörter à Zeichen für Bedeutung, Begriffe oder Konzepte Die Relation von Wort zu Bedeutung ist relativ beliebig (Pinker, 1994); z.b.: Hund = chien
Mehr