Dispflu... ähm nee Disfluencies bei Muttersprachlern und Lernern des Deutschen Malte Belz Institut für deutsche Sprache und Linguistik malte.belz@hu-berlin.de
Gliederung 1. Definition, Kontexte und Funktionen 2. Klassen von Disfluencies 3. Native vs. non-native Disfluencies 4. Methodik 5. Diskussion 6. Literatur 2
1. Was sind Disfluencies? Any deviation in speech from ideal delivery (Ferreira/Bailey 2004) Phänomene der gesprochenen Sprache Gesamtfrequenz: 6 10 v. 100 geäußerten Wörtern (Eklund 2004, Shriberg 2001) Nicht pathologisch 3
1. Was bedingt Disfluencies? Register (Schachter 1991), Routine (Hoffmann 1991) Geisteswissenschaften (größere Variation) vs. Naturwissenschaften (festes Ausdrucksset) Geskripteter Vortrag vs. emotionale Diskussion Soziolinguistik: Nähe Distanz Muttersprache Fremdsprache Konzentration auf Stil oder Inhalt Aufmerksames Monitoring gefüllter Pausen (Siegel et al. 1969) 4
1. Was bedingt Disfluencies? Somatischer Zustand (Müdigkeit, Ablenkung) (Hoffmann 1991) Kognitive Makroplanung (Planungsinterferenzen Hoffmann 1991) Human limitations (fluency spurts) Speakers have trouble deciding on, formulating, and articulating what they want to say and that interferes with their ideal delivery (Clark 1996: 254) 5
1. Perzeption von Disfluencies Psycholinguistische Inferenz: Disfluencies lassen Rückschlüsse über unser mentales Sprachproduktions- und Sprachperzeptionssystem zu, denn Disfluencies müssen mitverarbeitet werden (Ferreira/Bailey 2004) Hat Auswirkungen bspw. auf Parsing-Theorien 6
1. Funktionen von Disfluencies Floor-holding hypothesis (FP) (Eklund 2004) Signalisierung von Planungsprozessen Help-me-out-Hypothesis (FP) (Clark/Fox Tree 2002) Aber: Dichotomie zwischen strategischem Einsatz und Planungsproblemen (UP) (Clark/Wasow 1998) Im Englischen wird uh für kurze, uhm für längere FPs verwendet (Clark/Fox Tree 2002) Informationsstrukturelle Implikationen (ist Information given oder new) (Arnold 2003) 7
1. Funktionen von Disfluencies: Reparatur Einleitung von Reparaturstrategien Explizite Editierungen ( ne Quatsch, also ich meine ) Neustart oder Ersetzung des Reparandums 8
1. Funktionen von Disfluencies: Reparatur Selbstreparaturen nach Perzeption des Monitors (Ferreira/Bailey 2004: 232) 9
1. Funktionen von Disfluencies: Reparatur Beispiel 1 Beispiel 2 10
2. Klassen von Disfluencies (Hartsuiker 2010, Eklund 2004) i) Ungefüllte Pausen (UP) ii) Gefüllte Pausen (FP) Vokalisationen ( äh, ähm ) iii) Längung (Prolongation) iv) Abbrüche v) Wiederholung vi) Selbstreparatur Ersetzung, Ergänzung, Löschung 11
i) Ungefüllte Pausen Häufigste und zugleich schlecht fassbare Klasse (perzeptiver Anfang? Cut-off?) HAMATAC: Pausen innerhalb eines Sinnabschnittes Separate Annotation wünschenswert 12
ii) Gefüllte Pausen Zweithäufigste Klasse Oft ein zentraler, schwaesker Laut einer Sprache (Eklund 2012) 13
iii) Längungen Dritthäufigste Klasse Gedehnte Silben (Onsets, Nuklei, Kodae) Koda-Längung Nukleus-Längung Onset-Längung 14
iv) Abbrüche (Trunkationen) Mit und ohne Restart/Repair Annotation fraglich aber lt. Guidelines Sind Abbrüche bei den Lernern häufiger als bei den Muttersprachlern? 15
v) Wiederholungen Wiederholungen ganzer Wörter/Phrasen sind selten (sowohl direkte als auch indirekte Präzedenz) Registerabhängig: in Diskussionen häufiger (floorholding) ich betreibe keine / ich betreibe / ich betreibe / ich betreibe keine entnazifizierung / ich betreibe keine / ich betreibe keine entnazifizierung wie sie es im falle kiesinger betreiben wollten (Schwitalla 2012: 119) 16
vi) Selbstreparaturen Reparaturen mit Abbruch/ohne Abbruch und mit FP 17
3. Native vs. non-native Disfluencies foreign-soundingness von gesprochener Lernersprache bei Mangel an Fluency (Götz 2007) Disfluencies geben fremde Herkunft zu erkennen (Eklund 2004: 146) Aussprache der Fillers Welche weiteren Unterschiede in der Produktion von Disfluencies lassen sich für Lerner feststellen? 18
3. Native vs. non-native Disfluencies Lassen sich Effekte für das Englische (Götz 2007) auch im Deutschen finden (Overuse/Underuse)? Overuse von Pausen am Anfang einer syntaktischen Einheit Unterschiede In Art/Verteilung? In Frequenz? In syntaktischer Position? In Reparaturstrategien? 19
3. Native vs. non-native Disfluencies Reparaturstrategien Frequenzunterschiede? TROUBLE + UP/FP + REPAIR/RESTART Qualität/Quantität der Reparandi vor UP/FP? Unterscheiden sich die Prolongationen der Lernern von denen der Muttersprachler? Methode Quantitativ (Korpusdaten) Qualitativ (Interpretation der Ergebnisse, Kontext) 20
4. Methodik Notwendig: Daten von Lernern Muttersprachlern Lerner: Hamburg Map Task Corpus Muttersprachler: Berlin Map Task Corpus Erhebungsmethoden Map -Task-Aufgabe Quasi-spontane Sprache (Elizitationsexperiment) 21
4. Methodik Maps 22
4. Methodische Problematik Die beiden Korpora sind klein HAMATAC 21433 Wörter, 24 Sprecher, 12x2 Gespräche (Wechsel Instructor Instructee) BeMaTaC ( Kolloquium 06.02.2013) tba Tokens, 24 Sprecher, 12x2 Gespräche (Wechsel Instructor Instructee) 23
4. Methodische Problematik HAMATAC HAMATAC hat viele einzelne Sprecher unterschiedlicher Herkunftssprachen, so sind keine Aussagen für bestimmte L1-Sprachen möglich. Mehrere Disfluency-Ebenen bis 10 ohne Motivation! Tokenisierung fragwürdig (nach gesprochenen Sinneinheiten hochgradig interpretativ) 24
4. Methodische Probleme HAMATAC Annotationen Orthographische Transkription Disfluency-Annotation POS, Lemma (wo?) Metadaten (Alter, Geschlecht, Bekanntheit, Zeit in Deutschland, Anzahl der Sprachen) 25
4. Disfluency-Annotation HAMATAC Redundant besser wäre (bspw.) Repair (allgemein,!=restart) Restart (bei Neustart) (Hedeland 2012: 36) 26
4. Disfluency-Annotation HAMATAC Nicht-exhaustive, sondern akustische Annotation gefüllter Pausen Unvorhersehbare Werte äh mit Spatium äh ohne Spatium ähm mit Spatium ähm ohne Spatium mh, mhm, oh, ah, öh, uh 27
4. Methodische Problematik HAMATAC Fehler: In zwei Gesprächen wurde vergessen, die Instructor/Instructee-Zuweisung zu wechseln Trotz allem Disfluency-annotiertes Korpus gesprochener deutscher Lernersprache Verfügbar und in ANNIS durchsuchbar Parallelkorpus im Entstehen 28
4. Methodik BeMaTaC Der HAMATAC-Problematik bewusst Annotationsebene <break> für ungefüllte Pausen (Stille) Exhaustive Listung gefüllter Pausen /.*(äh ähm mhm mh mh hmm).*/ Je nach Fragestellung (Prolongationen, Reparaturen) müsste noch eine zusätzliche Ebene entwickelt und ergänzt werden 29
4. Methodik BeMaTaC Annotationsebenen (aus BeMaTaC Transkriptionsguide.pdf) 30
4. Methodik: Statistik Vergleich von absoluten Häufigkeiten in verschieden großen Korpora mittels der Log- Likelihood-Methode (nach Rayson/Garside 2000, wie in Götz 2007) Je höher der relative Frequenzunterschied eines Tokens ist, desto höher ist der LL-Wert 95th percentile; 5% level; p < 0.05; critical value = 3.84 99th percentile; 1% level; p < 0.01; critical value = 6.63 31
5. Diskussion Ich freue mich auf Fragen Anregungen Kritik Vielen Dank! 32
6. Literatur Arnold, Jennifer E.; Fagnano, Maria; Tanenhaus, Michael K. (2003): Disfluencies Signal Theee, Um, New Information. Journal of Psycholinguistic Research 1/32. 25 36. Clark, Herbert H. (1996): Using language. Cambridge: Cambridge Univ. Press. Clark, Herbert H.; Fox Tree, Jean E. (2002): Using uh and um in spontaneous speaking. Cognition 1/84. 73 111. Eklund, Robert (2004): Disfluency in Swedish human-human and human-machine travel booking dialogues. Linköping, Sweden, Linköpings Universitet, Dissertation. Eklund, Robert (2012): Persönliches Gespräch am 14.12.2012. Ferreira, Fernanda; Bailey, Karl G.D (2004): Disfluencies and human language comprehension. Trends in Cognitive Sciences 5/8. 231 237. Götz, Sandra (2007): Performanzphänomene in gesprochenem Lernerenglisch. Eine korpusbasierte Pilotstudie. Zeitschrift für Fremdsprachenforschung 1/18. 67 84. Hartsuiker, Robert J.; Notebaert, Lies (2010): Lexical Access Problems Lead to Disfluencies in Speech. Experimental Psychology (formerly Zeitschrift für Experimentelle Psychologie) 3/57. 169 177. Hedeland, Hanna; Schmidt, Thomas (2012): Technological and methodological challenges in creating, annotating and sharing a learner corpus of spoken German. In: Schmidt, Thomas/Wörner, Kai (eds.): Multilingual Corpora and Multilingual Corpus Analysis: John Benjamins. 25 46. Hoffmann, Ludger (1991): Anakoluth und sprachliches Wissen. Deutsche Sprache 2/19. 97 119. Rayson, Paul; Garside, Roger (2000): Comparing corpora using frequency profiling. In: Proceedings of the workshop on Comparing Corpora, to be held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics. Schachter, Stanley et al. (1991): Speech disfluency and the structure of knowledge. Journal of Personality and Social Psychology 3/60. 362 367. Schwitalla, Johannes (2012): Gesprochenes Deutsch. Eine Einführung. Berlin: Erich Schmidt Verlag. (=Grundlagen der Germanistik 33). Shriberg, Elizabeth (2001): To errrr is human: ecology and acoustics of speech disfluencies. Journal of the International Phonetic Association 1/31. 153 169. Siegel, Gerald M.; Lenske, Joanne; Broen, Patricia (1969): Suppression of normal speech disfluencies through response 33 cost. Journal of Applied Behavior Analysis 4/2. 265 276.