Disfluencies bei Muttersprachlern und Lernern des Deutschen

Ähnliche Dokumente
Wortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

Faktivität und Theory of Mind / Komplexe Syntax und Theory of mind

Wie flüssig sprechen fortgeschrittene deutsche Lerner des Englischen?

Falko. Lernersprache und Lernerkorpora. BeMaTaC Korpusdesign und gesprochene Sprache. Marc Reznicek mit Folien des gesamten Korpuslinguistikteams

Disfluencies und Reparaturen bei Muttersprachlern und Lernern eine kontrastive Analyse

Literatur zu den Vorlesungen Allgemeine Psychologie I

Äußerungen + Segmentierung

Ein kenianisches Lernerkorpus. Einflüsse der Muttersprachen und des Englischen auf den Spracherwerb bei kenianischen Deutschlernern

Inwiefern zeigen die Monophthong Vokalverschiebungen in Neuseeland Englisch Evidenzen von 'chain shifting'?

Der Rückschaufehler Wie Entscheidungen in Unternehmen beeinflusst werden

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können

Modellierung von linguistischen Forschungsdaten. Kolloquium Korpuslinguistik Carolin Odebrecht Humboldt-Universität zu Berlin

Einleitung. Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal

Wissensmanagement, Kompetenzmanagement und Modelltheorie

Methoden des Wissenschaftlichen Arbeitens Vorlesung im SS VL 7: Strategien der Forschung 1: Korrelative Forschung (Fortsetzung)

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

An ERP Study of Linguistic Preference and World Knowledge Plausibility in Pronoun Resolution

Grundlagen der Textlinguistik

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Rezeptionssignale vs. Mini-Turns bei standardnahen Sprechern

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones

Überblick. Hauptseminar: Einführung in die Korpuslinguistik. Wiederholung Produktivität. Wiederholung Produktivität. Fragen

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Lexikalisch-semantische und Satz-semantische Störungsmerkmale

Mathematische Grundlagen III

Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten

Falko. Error annotations in Falko 2.x. Marc Reznicek & Cedric Krummes

Erster Tübingen-Berlin Lernerkorpus-Workshop ( ) Marc Reznicek

Language survey/informationen zur Sprache

FAKULTÄT FÜR SPRACH-, LITERATUR- UND

Einladung zu den zweiteiligen Englisch-Workshops: Sprechen Sie Denglish?

631 English Teacher Conference

Haltung und Handlung. Theorien als Werkzeug Sozialer Arbeit. Workshop auf der 5. Merseburger Tagung zur systemischen Sozialarbeit

I1-Transkriptionskonventionen

Verzeichnis meiner Vorträge

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

der Zweitsprache Deutsch Vortrag auf dem DGFF-Kongress Inger Petersen, Universität Oldenburg

Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus LAUDATIO-Workshop Hagen Hirschmann

KORPUSGESTEUERTE SYNTAXANALYSEN

Angewandte Psychologie Fur Die Personalentwicklung. Konzepte Und Methoden Fur Bildungsmanagement, Betriebliche Aus- Und Weiterbildung

Forschungs- und Jahresbericht 2011

COMPUTER: Mission Berlin, August 13, 1961, six pm. You've only got 55 minutes left to save Germany.

Korpus. Was ist ein Korpus?

Offene Selbstgespräche im Badmintondoppel: Dienen sie (auch) der Selbstdarstellung und beeinflussen sie den Teampartner?

Der Einfluss der prozeduralen Gerechtigkeit und der sozialen Identität auf die Steuerehrlichkeit

Nießbrauch- und Wohnrechtsverträge richtig abschließen (German Edition)

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Zeitschriften Linguistik

參 考 書 目 現 象 學 及 其 效 應, 北 京 : 三 聯,1994 現 象 學 概 念 通 釋, 北 京 : 三 聯,1999

Ziele der Vl Einführung in die Methoden der Psychologie (MP1a)

Einführung. Lehren und Lernen mit Medien II. Professur E-Learning und Neue Medien. Institut für Medienforschung Philosophische Fakultät

Overview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1

Hintergrund: Morphologische Produktivität

Emotionserkennung: Frameworkdesign

Soziophonologie/Soziophonetik am Institut für Schallforschung

Mitglied der Leibniz-Gemeinschaft

Lehrveranstaltungen im Wintersemester 2012/2013

Concept maps. Prof. Dr. Günter Daniel Rey. Professur E-Learning und Neue Medien 30. Concept maps

Schnittpunkt vieler Wissenschaften ca. 1860

Psycholinguistik. Definition: Psycholinguistik (synonym: Sprachpsychologie) erforscht das kognitive (mentale) System, das den Sprachgebrauch erlaubt.

Reparaturen kompakt - Küche + Bad: Waschbecken, Fliesen, Spüle, Armaturen, Dunstabzugshaube... (German Edition)

Level 1 German, 2014

Correlational analysis

Behindert oder übermenschlich die Superhelden?

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

Sprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010

Computational Film Studies

Erweiterung des STTS für gesprochene Sprache

Kulturelle Aspekte der Führung. Kulturelle Aspekte Johannes Winterhalter 1

Sprachkontaktforschung

RER WÖRTER DURCH. Erfassung unbewusster Verarbeitung. Empirisches Praktikum: Methoden der / )

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo

Corpus-based language analysis in research and teaching:

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

Einführung in die Methoden der Künstlichen Intelligenz

Simultaner bilingualer Spracherwerb unter entwicklungs- und kognitionspsychologischen Aspekten

Berühren in der Pflege ein alltägliches Pflegephänomen phänomenologisch betrachtet. Doris Kamleitner & Hanna Mayer Institut für Pflegewissenschaft

Communities of Practice - Plattform für neue Ideen

Sport Northern Ireland. Talent Workshop Thursday 28th January 2010 Holiday Inn Express, Antrim

Lineare Position von Konsonanten am Wort- oder Silbenanfang, häufiger Fehler

0505 FIRST LANGUAGE GERMAN

Einführung in Techniken wissenschaftlichen Arbeitens Literaturrecherche und Lesen von Fachartikeln

Initiationstreffen Bachelorseminar Gamification Using Business Games & Simulations in Management Accounting Research. Wintersemester 2017/2018

Informationsveranstaltung Promseminar BAS/CSCW

Syntaktischer Transfer beim Erwerb einer Drittsprache anhand der Lernersituation L1 Deutsch, L2 Englisch, L3 Niederländisch

Geistige Anforderungen im Studium

Informations- / Bibliothekswissenschaft und Digital Humanities Gemeinsamer Aufbruch in das Zeitalter der digitalen Transformation

Hausaufgabe 1-4. Name: If homework late, explanation: Last class homework is being accepted: If correction late, explanation: Student Self-Grading

Open Access and Academic Spring?

THE ROLE OF PROSODIC SENSITIVITY IN CHILDREN S READING DEVELOPMENT

There are 10 weeks this summer vacation the weeks beginning: June 23, June 30, July 7, July 14, July 21, Jul 28, Aug 4, Aug 11, Aug 18, Aug 25

FID GEO: New services for open access to scientific literature, maps and research data

Transkript:

Dispflu... ähm nee Disfluencies bei Muttersprachlern und Lernern des Deutschen Malte Belz Institut für deutsche Sprache und Linguistik malte.belz@hu-berlin.de

Gliederung 1. Definition, Kontexte und Funktionen 2. Klassen von Disfluencies 3. Native vs. non-native Disfluencies 4. Methodik 5. Diskussion 6. Literatur 2

1. Was sind Disfluencies? Any deviation in speech from ideal delivery (Ferreira/Bailey 2004) Phänomene der gesprochenen Sprache Gesamtfrequenz: 6 10 v. 100 geäußerten Wörtern (Eklund 2004, Shriberg 2001) Nicht pathologisch 3

1. Was bedingt Disfluencies? Register (Schachter 1991), Routine (Hoffmann 1991) Geisteswissenschaften (größere Variation) vs. Naturwissenschaften (festes Ausdrucksset) Geskripteter Vortrag vs. emotionale Diskussion Soziolinguistik: Nähe Distanz Muttersprache Fremdsprache Konzentration auf Stil oder Inhalt Aufmerksames Monitoring gefüllter Pausen (Siegel et al. 1969) 4

1. Was bedingt Disfluencies? Somatischer Zustand (Müdigkeit, Ablenkung) (Hoffmann 1991) Kognitive Makroplanung (Planungsinterferenzen Hoffmann 1991) Human limitations (fluency spurts) Speakers have trouble deciding on, formulating, and articulating what they want to say and that interferes with their ideal delivery (Clark 1996: 254) 5

1. Perzeption von Disfluencies Psycholinguistische Inferenz: Disfluencies lassen Rückschlüsse über unser mentales Sprachproduktions- und Sprachperzeptionssystem zu, denn Disfluencies müssen mitverarbeitet werden (Ferreira/Bailey 2004) Hat Auswirkungen bspw. auf Parsing-Theorien 6

1. Funktionen von Disfluencies Floor-holding hypothesis (FP) (Eklund 2004) Signalisierung von Planungsprozessen Help-me-out-Hypothesis (FP) (Clark/Fox Tree 2002) Aber: Dichotomie zwischen strategischem Einsatz und Planungsproblemen (UP) (Clark/Wasow 1998) Im Englischen wird uh für kurze, uhm für längere FPs verwendet (Clark/Fox Tree 2002) Informationsstrukturelle Implikationen (ist Information given oder new) (Arnold 2003) 7

1. Funktionen von Disfluencies: Reparatur Einleitung von Reparaturstrategien Explizite Editierungen ( ne Quatsch, also ich meine ) Neustart oder Ersetzung des Reparandums 8

1. Funktionen von Disfluencies: Reparatur Selbstreparaturen nach Perzeption des Monitors (Ferreira/Bailey 2004: 232) 9

1. Funktionen von Disfluencies: Reparatur Beispiel 1 Beispiel 2 10

2. Klassen von Disfluencies (Hartsuiker 2010, Eklund 2004) i) Ungefüllte Pausen (UP) ii) Gefüllte Pausen (FP) Vokalisationen ( äh, ähm ) iii) Längung (Prolongation) iv) Abbrüche v) Wiederholung vi) Selbstreparatur Ersetzung, Ergänzung, Löschung 11

i) Ungefüllte Pausen Häufigste und zugleich schlecht fassbare Klasse (perzeptiver Anfang? Cut-off?) HAMATAC: Pausen innerhalb eines Sinnabschnittes Separate Annotation wünschenswert 12

ii) Gefüllte Pausen Zweithäufigste Klasse Oft ein zentraler, schwaesker Laut einer Sprache (Eklund 2012) 13

iii) Längungen Dritthäufigste Klasse Gedehnte Silben (Onsets, Nuklei, Kodae) Koda-Längung Nukleus-Längung Onset-Längung 14

iv) Abbrüche (Trunkationen) Mit und ohne Restart/Repair Annotation fraglich aber lt. Guidelines Sind Abbrüche bei den Lernern häufiger als bei den Muttersprachlern? 15

v) Wiederholungen Wiederholungen ganzer Wörter/Phrasen sind selten (sowohl direkte als auch indirekte Präzedenz) Registerabhängig: in Diskussionen häufiger (floorholding) ich betreibe keine / ich betreibe / ich betreibe / ich betreibe keine entnazifizierung / ich betreibe keine / ich betreibe keine entnazifizierung wie sie es im falle kiesinger betreiben wollten (Schwitalla 2012: 119) 16

vi) Selbstreparaturen Reparaturen mit Abbruch/ohne Abbruch und mit FP 17

3. Native vs. non-native Disfluencies foreign-soundingness von gesprochener Lernersprache bei Mangel an Fluency (Götz 2007) Disfluencies geben fremde Herkunft zu erkennen (Eklund 2004: 146) Aussprache der Fillers Welche weiteren Unterschiede in der Produktion von Disfluencies lassen sich für Lerner feststellen? 18

3. Native vs. non-native Disfluencies Lassen sich Effekte für das Englische (Götz 2007) auch im Deutschen finden (Overuse/Underuse)? Overuse von Pausen am Anfang einer syntaktischen Einheit Unterschiede In Art/Verteilung? In Frequenz? In syntaktischer Position? In Reparaturstrategien? 19

3. Native vs. non-native Disfluencies Reparaturstrategien Frequenzunterschiede? TROUBLE + UP/FP + REPAIR/RESTART Qualität/Quantität der Reparandi vor UP/FP? Unterscheiden sich die Prolongationen der Lernern von denen der Muttersprachler? Methode Quantitativ (Korpusdaten) Qualitativ (Interpretation der Ergebnisse, Kontext) 20

4. Methodik Notwendig: Daten von Lernern Muttersprachlern Lerner: Hamburg Map Task Corpus Muttersprachler: Berlin Map Task Corpus Erhebungsmethoden Map -Task-Aufgabe Quasi-spontane Sprache (Elizitationsexperiment) 21

4. Methodik Maps 22

4. Methodische Problematik Die beiden Korpora sind klein HAMATAC 21433 Wörter, 24 Sprecher, 12x2 Gespräche (Wechsel Instructor Instructee) BeMaTaC ( Kolloquium 06.02.2013) tba Tokens, 24 Sprecher, 12x2 Gespräche (Wechsel Instructor Instructee) 23

4. Methodische Problematik HAMATAC HAMATAC hat viele einzelne Sprecher unterschiedlicher Herkunftssprachen, so sind keine Aussagen für bestimmte L1-Sprachen möglich. Mehrere Disfluency-Ebenen bis 10 ohne Motivation! Tokenisierung fragwürdig (nach gesprochenen Sinneinheiten hochgradig interpretativ) 24

4. Methodische Probleme HAMATAC Annotationen Orthographische Transkription Disfluency-Annotation POS, Lemma (wo?) Metadaten (Alter, Geschlecht, Bekanntheit, Zeit in Deutschland, Anzahl der Sprachen) 25

4. Disfluency-Annotation HAMATAC Redundant besser wäre (bspw.) Repair (allgemein,!=restart) Restart (bei Neustart) (Hedeland 2012: 36) 26

4. Disfluency-Annotation HAMATAC Nicht-exhaustive, sondern akustische Annotation gefüllter Pausen Unvorhersehbare Werte äh mit Spatium äh ohne Spatium ähm mit Spatium ähm ohne Spatium mh, mhm, oh, ah, öh, uh 27

4. Methodische Problematik HAMATAC Fehler: In zwei Gesprächen wurde vergessen, die Instructor/Instructee-Zuweisung zu wechseln Trotz allem Disfluency-annotiertes Korpus gesprochener deutscher Lernersprache Verfügbar und in ANNIS durchsuchbar Parallelkorpus im Entstehen 28

4. Methodik BeMaTaC Der HAMATAC-Problematik bewusst Annotationsebene <break> für ungefüllte Pausen (Stille) Exhaustive Listung gefüllter Pausen /.*(äh ähm mhm mh mh hmm).*/ Je nach Fragestellung (Prolongationen, Reparaturen) müsste noch eine zusätzliche Ebene entwickelt und ergänzt werden 29

4. Methodik BeMaTaC Annotationsebenen (aus BeMaTaC Transkriptionsguide.pdf) 30

4. Methodik: Statistik Vergleich von absoluten Häufigkeiten in verschieden großen Korpora mittels der Log- Likelihood-Methode (nach Rayson/Garside 2000, wie in Götz 2007) Je höher der relative Frequenzunterschied eines Tokens ist, desto höher ist der LL-Wert 95th percentile; 5% level; p < 0.05; critical value = 3.84 99th percentile; 1% level; p < 0.01; critical value = 6.63 31

5. Diskussion Ich freue mich auf Fragen Anregungen Kritik Vielen Dank! 32

6. Literatur Arnold, Jennifer E.; Fagnano, Maria; Tanenhaus, Michael K. (2003): Disfluencies Signal Theee, Um, New Information. Journal of Psycholinguistic Research 1/32. 25 36. Clark, Herbert H. (1996): Using language. Cambridge: Cambridge Univ. Press. Clark, Herbert H.; Fox Tree, Jean E. (2002): Using uh and um in spontaneous speaking. Cognition 1/84. 73 111. Eklund, Robert (2004): Disfluency in Swedish human-human and human-machine travel booking dialogues. Linköping, Sweden, Linköpings Universitet, Dissertation. Eklund, Robert (2012): Persönliches Gespräch am 14.12.2012. Ferreira, Fernanda; Bailey, Karl G.D (2004): Disfluencies and human language comprehension. Trends in Cognitive Sciences 5/8. 231 237. Götz, Sandra (2007): Performanzphänomene in gesprochenem Lernerenglisch. Eine korpusbasierte Pilotstudie. Zeitschrift für Fremdsprachenforschung 1/18. 67 84. Hartsuiker, Robert J.; Notebaert, Lies (2010): Lexical Access Problems Lead to Disfluencies in Speech. Experimental Psychology (formerly Zeitschrift für Experimentelle Psychologie) 3/57. 169 177. Hedeland, Hanna; Schmidt, Thomas (2012): Technological and methodological challenges in creating, annotating and sharing a learner corpus of spoken German. In: Schmidt, Thomas/Wörner, Kai (eds.): Multilingual Corpora and Multilingual Corpus Analysis: John Benjamins. 25 46. Hoffmann, Ludger (1991): Anakoluth und sprachliches Wissen. Deutsche Sprache 2/19. 97 119. Rayson, Paul; Garside, Roger (2000): Comparing corpora using frequency profiling. In: Proceedings of the workshop on Comparing Corpora, to be held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics. Schachter, Stanley et al. (1991): Speech disfluency and the structure of knowledge. Journal of Personality and Social Psychology 3/60. 362 367. Schwitalla, Johannes (2012): Gesprochenes Deutsch. Eine Einführung. Berlin: Erich Schmidt Verlag. (=Grundlagen der Germanistik 33). Shriberg, Elizabeth (2001): To errrr is human: ecology and acoustics of speech disfluencies. Journal of the International Phonetic Association 1/31. 153 169. Siegel, Gerald M.; Lenske, Joanne; Broen, Patricia (1969): Suppression of normal speech disfluencies through response 33 cost. Journal of Applied Behavior Analysis 4/2. 265 276.