Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es
|
|
- Heiko Engel
- vor 7 Jahren
- Abrufe
Transkript
1 Inhalt und Typen von Korpora Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es
2 Inhalt von Korpora Korpora können die verschiedensten Texte in den unterschiedlichsten Zusammensetzungen enthalten Beipackzettel für Medikamente Sportreportagen Predigten Cockpit-Gespräche
3 Vielfalt menschlicher Sprache menschliche Sprache umfasst viele Bereiche es existieren viele Variablen, nach denen man Sprache beschreiben kann mündlich/schriftlich formell/informell vorbereitet/spontan sachlich/erdichtet
4 Textsorten die Zusammensetzung von Korpora hängt eng mit der Textsortenproblematik zusammen eine Textsorte klassifiziert eine sprachliche Äußerung nach 1) internen und 2) externen Kriterien 1) z.b. Lexik, Syntax, Aufbau, 2) z.b. Kommunikationssituation,
5 Textsortenbeispiele Radiosendungen Kochrezepte informelle Unterhaltung Verträge politische Reden Science Fiction Liebesbriefe
6 Auswahlkriterien im Idealfall wäre ein Korpus eine vollständige oder repräsentative Sammlung der Texte einer (Sub-)Sprache dieser Anspruch ist nur für kleine Ausschnitte aus einer Sprache einlösbar z.b. alle in der Bundesrepublik verkündeten Gesetze für große Mehrheit der Korpora ist nur Annäherung an das Ideal möglich
7 Repräsentativität da Vollständigkeit selten möglich ist, wäre eine repräsentative Auswahl eine Alternative das Korpus müsste ein genaues Abbild der zu untersuchenden (Sub-)Sprache darstellen zu jedem Parameter (z.b. mündlich/schriftlich) müssten daher gleiche Anteile enthalten sein
8 Repräsentativität eine Stichprobe ist repräsentativ, wenn sie Aussagen über die Grundgesamtheit zulässt die Grundgesamtheit des Deutschen, selbst für das Jahr 2004, lässt sich nicht ermitteln daher kann ein Korpus einer Sprache nicht repräsentativ sein
9 Repräsentativität selbst wenn Grundgesamtheit (z.b. für Zeitungskorpus) ermittelt werden könnte, blieben Fragen wie kann Beliebtheit bestimmter Zeitungen berücksichtigt werden entscheidet Anzahl der Leser oder Höhe der Auflage? wie kann repräsentative Auswahl bei Fachzeitschriften aussehen? ``Wild und Hund, ja/``fleckvieh, nein?
10 Ausgewogenheit wenn man eine Alternative zu repräsentativen Korpora sucht, kann man ``ausgewogene Korpora erstellen in einem ausgewogenen Korpus werden ein oder mehrere Parameter festgelegt und die anderen möglichst gleichmäßig variiert
11 Ausgewogenheit Beispiel: George Bernard Shaws Frühe Theaterstücke Autor festgelegt (G.B. Shaw) Zeit festgelegt (bis 1914) Textsorte festgelegt (Theaterstücke) in diesem Fall kann Untermenge sogar vollständig angegeben werden
12 Ausgewogenheit Beispiel: Bonner Zeitungskorpus festgelegt: Sprache: Deutsch Zeit: (alle fünf Jahre) Zeitungen (Die Welt; Neues Deutschland) nicht festgelegt: welche Ausschnitte aus den jeweiligen Jahrgängen der Zeitungen
13 Ausgewogenheit Beispiel: British National Corpus (BNC) enthält 4055 Texte, 6,25 Mio. Sätze, 100 Mio. Token (Wörter) konstante Parameter: modernes britisches Englisch, variable Parameter: Alter, Geschlecht, regionale und soziale Herkunft der Sprecher, Textsorte, Domäne, Erscheinungsort, Zielgruppe,
14 Ausgewogenheit Variable Parameter umfassen: Region: South, Midlands, North Domäne: Natural science, Commerce, Arts, Belief & thought, Leisure, Zielgruppe: Alter, Geschlecht, Bildungsniveau
15 Ausgewogenheit verhindert, dass einseitige oder zufällige Zusammensetzung des Korpus zu falschen Rückschlüssen führt wenn z.b. nur Texte einer Zeitung, eines Autors, einer Region usf. enthalten sind kann natürlich trotzdem nicht ``die Sprache darstellen
16 Typen von Korpora Drei Typen von Korpora: Referenzkorpus ist in sich abgeschlossen Monitorkorpus ist wachsend ``Datensammlung ist opportunistisch zusammengestellt
17 Referenzkorpus feste Größe (Datensammlung abgeschlossen) meist gut annotiert und ausreichend dokumentiert (man weiß, was man kriegt!) Forschungsergebnisse können reproduziert werden leider veraltet Referenzkorpus mit seinem Erscheinen
18 Monitorkorpus wird beständig mit aktuellen Daten versorgt wächst und veraltet nicht sein Inhalt kann daher aber auch nicht genau definiert werden eignet sich vorzüglich zur Lexikographie (Lexikonerstellung)
19 ``Datensammlung opportunistisch zusammengestellte Ansammlung von Sprachdaten meist unsaubere Daten, d.h. z.b., dass noch Steuerzeichen (z.b. HTML) <br> enthalten sind Zeichensätze falsch kodiert sind ``Datensammlungen haben nur den Vorteil, dass sie schnell und billig zu kriegen sind
20 Typen von Korpora (Inhalt) Nationalkorpora: z.b. BNC, ANC, Deutsches Referenzkorpus (DeReKo) historische Korpora: Helsinki Corpus of English Texts, DeutschDiachronDigital Lernerkorpora: International Corpus of Learner English (ICLE), Fehler annotiertes Lernerkorpus (Falko) HU Berlin gesprochene Sprache: VerbMobil, The Bergen Corpus of London Teenager English (COLT)
21 Deutsches Referenzkorpus DeReKo (Deutsches Referenzkorpus): deutsche Gegenwartssprache entwickelt am IMS, Stuttgart, IDS Mannheim und SfS Tübingen Textauswahlprinzipien nicht dokumentiert (?) über COSMAS II (IDS Mannheim) verfügbar linguistische Annotation bis zu Chunks
22 Helsinki Corpus historisches Korpus: Old English bis Early Modern English, 1 Mio Wörter ausgewogen nach Region (Dialekt) und Genre Schwierigkeit: Verfügbarkeit in den älteren Sprachstufen
23 DeutschDiachronDigital (DDD) Projekt in Planung 15 Universitäten beteiligt (u.a. HU Berlin) historisches Korpus des Deutschen, Althochdeutsch bis 1900 "opportunistisch" (alles, was da ist) AHD ausgewogene Textauswahl (nach Zeit, Region und Textsorte) in MHD, FNHD, MND exemplarisch 3 Textsorten (Brief, Zeitung, Roman) NHD
24 Fehler annotiertes Lernerkorpus z.z. Monitorkorpus wächst an der HU (und FU) Berlin Falko enthält: Texte von Lernern verschiedener Muttersprachen aller Lernstufen Vergleichstexte von deutschen Muttersprachlern ist ``multi-layer -annotiert
25 Beispiel Deutsch: Verbmobil Korpus wurde gesammelt als ein Beispiel und Trainingskorpus für ein großes computerlinguistisches Projekt zur maschinellen Übersetzung von gesprochener Sprache ``gestellte Dialoge, Themen: Terminabsprache, Reiseplanung, Abendgestaltung
26 Welches Korpus brauch ich? Auswahl des Korpus hängt von linguistischer Fragestellung ab. bisweilen muss Korpus selbst zusammengestellt werden z.b. zum Vergleich der Textstruktur in katholischen und evangelischen Predigten zunächst sollte aber der Ansatz auf bereits bestehenden Korpora getestet werden z.b. Vergleich Textstruktur in polit. Reden
Korpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrKorpuslinguistik Grundlagen Korpora
Was ist ein Korpus? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 7. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 1]
MehrKorpuslinguistik IDS-Korpora und COSMAS II
Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche
MehrEinleitung. Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal
Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal Einleitung 1. Einleitung 2. Definitionen von Korpuslinguistik 2.1 Entstehung 2.1.1 : korpusbasiert vs. korpusgestützt 2.1.2 Generative
MehrKurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren
Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive Lyrik seit den 1990er Jahren Christine Hummel & Stefan Engelberg Institut für Deutsche Sprache, Mannheim Universität
MehrKorpuslinguistik Grundlagen Korpusrecherchemethoden
Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von
MehrLinguistische Forschungsdaten
Linguistische Forschungsdaten Andreas Witt Institut für Deutsche Sprache (IDS), Mannheim 45 Jahre und mehr IDS, Korpora, Verfügbarkeit, rechtliche Fragen (1) 1964 Das Institut für Deutsche Sprache wird
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
Mehrfsq Ein Abfragesystem für syntaktisch annotierte Baumbanken
fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken SFB 441, Universität Tübingen Syntaktisch annotierte Baumbanken Ursprünglich: Morphosyntaktische Tags (POS) Anreicherung mit syntaktischen Informationen
Mehrlinguistischer und literaturwissenschaftlicher Perspektive
Sprachliche Eigenarten literarischer Kurzformen in linguistischer und literaturwissenschaftlicher Perspektive Stefan Engelberg & Christine Hummel Institut für Deutsche Sprache, Mannheim Universität Freiburg
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrCOSMAS II Corpus Search Management and Analysis System
COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die
MehrKookkurrenzanalyse Einführung
Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich
MehrBettine-von-Arnim-Gesamtschule Schulinterner Lehrplan Sek. II Englisch Abitur 2018 Qualifikationsphase Leistungskurs
Bettine-von-Arnim-Gesamtschule Schulinterner Lehrplan Sek. II Englisch Abitur 2018 Qualifikationsphase Leistungskurs Quartal Unterrichtsvorhaben Zugeordnete Themenfelder Q1.1 The USA: freedom and justice?
MehrSprachdaten sammeln und auswerten
130 Sprachdaten sammeln und auswerten Die Korpuslinguistik am Institut für Deutsche Sprache (IDS) Von Peter Anliker 1 Im Jahr 1964, also vor fünfzig Jahren, wurde in Mannheim das Institut für Deutsche
MehrKorpus Beratungsgespräche (BG--)
1 Institut für Deutsche Sprache, Mannheim Abteilung Pragmatik: Archiv für Gesprochenes Deutsch URL: http://agd.ids-mannheim.de 2014 IDS, Mannheim Korpus Beratungsgespräche (BG--) Korpus_Projekt_Kurzbeschreibung
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrUntersuchungsarten im quantitativen Paradigma
Untersuchungsarten im quantitativen Paradigma Erkundungsstudien / Explorationsstudien, z.b.: Erfassung der Geschlechterrollenvorstellungen von Jugendlichen Populationsbeschreibende Untersuchungen, z.b.:
MehrZertifikatskurs Englisch B.B.Gymnasium Thie. Cambridge Certificate in Advanced English (CAE)
Das Cambridge Certificate in Advanced English (kurz CAE) ) ist ein Sprachzertifikat der University of Cambridge. Es wird nur noch vom Cambridge Certificate of Proficiency in English übertroffen. Auf der
MehrSyntaktische Tendenzen der Gegenwartssprache
Syntaktische Tendenzen der Gegenwartssprache Anforderungen: Regelmäßige Teilnahme: max. 2 Fehlzeiten Vorbereitung auf die Sitzung: Text lesen, Fragen notieren, mitdiskutieren (!) Leitung einer Sitzung
MehrDas Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten
Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner
MehrHS: Korpuslinguistische Behandlung von Phänomenen des Deutschen
HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei
MehrFalko. Lernersprache und Lernerkorpora. BeMaTaC Korpusdesign und gesprochene Sprache. Marc Reznicek mit Folien des gesamten Korpuslinguistikteams
Falko Lernersprache und Lernerkorpora BeMaTaC Korpusdesign und gesprochene Sprache Marc Reznicek mit Folien des gesamten Korpuslinguistikteams Berlin, 30. MaI 2013 Übersicht Wie unterscheiden sich Lerner-
MehrKorpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus LAUDATIO-Workshop Hagen Hirschmann
Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus 07.10.2014 LAUDATIO-Workshop Hagen Hirschmann Was ist ANNIS? ANNIS steht für ANNotation of Information Structure http://www.sfb632.uni-potsdam.de/d1/annis/
MehrWas ist eine Testtheorie?
Was ist eine Testtheorie? Eine Testtheorie bezeichnet eine Gesamtheit von Methoden zur Behandlung der Fragestellungen, welche sich bei der Testkonstruktion und -auswertung ergeben. Dieser Begriff ist nicht
MehrWolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.
Aufgabenstellung Klausur Methoden der Marktforschung 0.08.004 Der Automobilhersteller People Car verkauft eine neue Variante seines Erfolgsmodells Wolf zunächst nur auf einem Testmarkt. Dabei muss das
MehrDie folgende Umfrage beschäftigt sich mit der Verwendung von neuen Technologien im Fremdsprachenunterricht.
Einführung zur Umfrage Die folgende Umfrage beschäftigt sich mit der Verwendung von neuen Technologien im Fremdsprachenunterricht. Warum machen Sie diese Umfrage? In dieser Umfrage möchten wir die Verbreitung
MehrPsycholinguistik. Definition: Psycholinguistik (synonym: Sprachpsychologie) erforscht das kognitive (mentale) System, das den Sprachgebrauch erlaubt.
Psycholinguistik Definition: Psycholinguistik (synonym: Sprachpsychologie) erforscht das kognitive (mentale) System, das den Sprachgebrauch erlaubt. Teilgebiete der Psycholinguistik Können danach klassifiziert
MehrDaten Methoden Theorien Definitionen & Operationalisierungen
Definitionen Daten Methoden Theorien Definitionen & Operationalisierungen Eine Realdefinition legt fest, wie ein Ausdruck verwendet wird, indem sie die Beobachtungen, das Wissen, die Intuitionen, die wir
MehrAusgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH
Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Unterschied zwischen Normalisierung und Lemmatisierung? Enthält GermaNet schweizerdeutsche Einträge?
MehrEinführung in die deutsche Sprachwissenschaft (V) Einführung: Was ist Sprache? Was ist Sprachwissenschaft?
Einführung in die deutsche Sprachwissenschaft (V) Einführung: Was ist Sprache? Was ist Sprachwissenschaft? Inhalt der Vorlesung Die Vorlesung gibt einen Überblick über Gegenstände, Begriffe und Methoden
MehrElementare statistische Methoden
Elementare statistische Methoden Vorlesung Computerlinguistische Techniken Alexander Koller 28. November 2014 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen? Ziel
MehrMedienverhalten der Jugendlichen Bücher/Zeitschriften
Chart Medienverhalten der Jugendlichen Bücher/Zeitschriften Studie: Oö. Jugend-Medien-Studie Studien-Nr.: ZR face-to-face Interviews, repräsentativ für die oberösterreichischen Jugendlichen zwischen und
MehrKorpora im Sprachunterricht. GK C: Einführung in die Korpuslinguistik. Korpora im Sprachunterricht. Korpora im Sprachunterricht. Korpus als Material
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Korpora können genutzt werden als direkte Verwendung von Korpora im Unterricht Suchen, Entdecken
MehrKorpuslinguistik Grundlagen Korpora. Lyrik & Linguistik. Korpuslinguistik Grundlagen Korpora. Korpuslinguistik Grundlagen Korpora. Was ist ein Korpus?
Lyrik & Linguistik Was ist ein Korpus? Stefan Engelberg & Christine Hummel Institut für Deutsche Sprache, Mannheim Universität Freiburg Hauptseminar, Uni Mannheim, FS 2008 Lemnitzer, Lothar und Heike Zinsmeister.
MehrOrganisatorisches: Kontakt. Korpuslinguistik. Korpuslinguistik. Organisatorisches: Plan. Linguistische Daten. Daten in der Linguistik
Organisatorisches: Kontakt Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Doktorandenseminar Bochum Oktober 2008 email: anke.luedeling@rz.hu-berlin.de homepage: http://www.linguistik.huberlin.de/institut/professuren/
MehrAuswahlbibliographie zum Studium der anglistischen Sprachwissenschaft
Helga Höhlein, Peter H. Marsden, Clausdirk Poliner Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft Mit Kommentaren Max Niemeyer Verlag Tübingen 1987 INHALT Seite Allgemeine Hilfsmittel.
MehrErgänzung zu Kapitel 7.3: Übersicht zu Einzelkorpora
Ergänzung zu Kapitel 7.3: Übersicht zu Einzelkorpora In dieser Datei haben wir für Sie eine Reihe von Einzelkorpora zusammengestellt, die eine gewisse Übersicht über die deutsche Korpuslandschaft geben.
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrDependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/
Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur
Mehr2.Übung Stochastik und Statistik WS09/10 (Boogaart, Jansen)
2.Übung Stochastik und Statistik WS09/10 (Boogaart, Jansen) Aufgabe 1: Ein Versuch mit einem Schlafmittel In einem klinischen Versuch sollte die Wirksamkeit eines Schlafmittels getestet werden. Dazu wurden
MehrOrganisatorisches. HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen. Lernerkorpora als Datenquelle. Lernerkorpora als Datenquelle
HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2004/2005 Anke Lüdeling anke.luedeling@rz.hu-berlin.de Organisatorisches 1. Vortrag: 15-20 Minuten + 5-10 Minuten Diskussion (gesamt 30
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrLeitung Prof. Dr. Petra M. Vogel. Mitarbeiterinnen Petra Solau-Riebel/Carolin Baumann.
Siegerländer Sprachatlas Universität Siegen Fakultät I: Philosophische Fakultät Adolf-Reichwein-Str. 2 57068 Siegen Leitung Prof. Dr. Petra M. Vogel Mitarbeiterinnen Petra Solau-Riebel/Carolin Baumann
MehrRichtig zitieren in der Facharbeit
Richtig zitieren in der Facharbeit Alles fängt damit an, dass am Ende ein Punkt steht. (Prof. R. Koch) Evangelisches Gymnasium, Fachschaft Deutsch 2008 Der Quellennachweis (Quellenangabe) muss beim Zitieren
MehrWelche Themen des dritten Moduls entdecke ich in meinem Arbeitsalltag? 1
theoretische Vertiefung Sprachbildung 0-10 Modul 3 Liebe Teilnehmerinnen des Kom(petenz)Passes, auf der ersten Seite des Kom(petenz)Passes möchten wir Ihnen die Gelegenheit geben, die Inhalte des dritten
MehrSCHNITTSTELLEN ZUR NUTZUNG DER KORPUSANALYSEPLATTFORM KORAP
Marc Kupietz und Nils Diewald SCHNITTSTELLEN ZUR NUTZUNG DER KORPUSANALYSEPLATTFORM KORAP KobRA-Abschlusstagung, 30.10.2015 ÜBERBLICK 1. 2. 3. 4. 5. IDS im KobRA-Projekt KorAP Schnittstellen Protokoll
MehrBeide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.
Welche der folgenden Maßzahlen sind resistent gegenüber Ausreißer? Der Mittelwert und die Standardabweichung. Der und die Standardabweichung. Der und die Spannweite. Der und der Quartilsabstand. Die Spannweite
MehrStandardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1]
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrDie Schülerinnen orientieren sich in Zeitungen.
Schulinternes Curriculum der Ursulinenschule Hersel im Fach Deutsch Jahrgang 8 Übersicht über Unterrichtsvorhaben, Obligatorik und Klassenarbeiten Unterrichtsvorhaben Obligatorik Klassenarbeit Kurzreferate
MehrKorpuslinguistik & das Web
Korpuslinguistik & das Web Proseminar Web-basierte Techniken in der Computerlinguistik WS 2012 / 2013 Michaela Regneri Sessel-Linguisten vs. Korpuslinguisten Kompetenz Performanz 2 Korpus vs. Armchair
MehrErgebnisse der Qualitativen Vorstudie Bürgerbeteiligung in Bonn
Ergebnisse der Qualitativen Vorstudie Bürgerbeteiligung in Bonn Zentrum für Evaluation und Methoden (ZEM) Rheinische i h Friedrich-Wilhelms-Universität i l i ität Bonn Prof. Dr. Georg Rudinger Dipl.-Psych.
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrDaten Methoden Theorien Datentypen - Erhebungsverfahren
Was ist der Gegenstand der Sprachwissenschaft? Zum Beispiel: Gegenstand der Sprachwissenschaft sind die kognitiv verankerten Entitäten, Strukturen und Regeln, die die Erzeugung sprachlicher Äußerungen
MehrVerfügbare Deutsche Korpora (gesprochene und geschriebene Texte)
Verfügbare Deutsche Korpora (gesprochene und geschriebene Texte) Chatkorpus von Michael Beißwenger http://www.linse.uni-due.de/tl_files/pdfs/publikationen-rezensionen/chatkorpus_beisswenger_2013.pdf Hamburg
MehrDialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy
Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrFACH: DEUTSCH JAHRGANG: 11
Folge der Einheiten Dauer der Einheit (ca.) SCHULINTERNER ARBEITSPLAN 1 Sachtextanalyse KW 36 42 Sachtextanalyse (Rede, Nachricht, Kommentar, Glosse, Leserbrief, usw.) Pragmatische Texte analysieren Erörterndes
MehrEvent Recognition Engine
Event Recognition Engine Eine Analysis Engine im UIMA Framework Hauptseminar Information Retrieval Tobias Beck 10.01.2011 2 Übersicht: Einordnung UIMA Komponenten einer UIMA Pipeline Selbst erstellte Event
MehrUnterrichtsinhalte Latein Jahrgang 11 Einführungsphase
Unterrichtsinhalte Latein Jahrgang 11 Einführungsphase I. Prosa II. Poesie Auswahl aus folgenden Autoren und Themen Cicero: Reden Catull: Liebesgedichte - Übersetzung ausgewählter Reden - Rhetorische Stilmittel
MehrFinanzwissen und Finanzplanungskompetenz. Ergebnisse einer repräsentativen Meinungsumfrage im Auftrag des Bundesverbands deutscher Banken
Finanzwissen und Finanzplanungskompetenz der Deutschen 2014 Ergebnisse einer repräsentativen Meinungsumfrage im Auftrag des Bundesverbands deutscher Banken 1. Wirtschaftsinteresse und Informationsverhalten
MehrCITIES AGAINST RACISM RESPONSIBILITIES OF CITIES IN COUNTERACTING RACISM SUSTAINABILITY. Evaluation der Plakatkampagne der Stadt Graz gegen Rassismus
CITIES AGAINST RACISM RESPONSIBILITIES OF CITIES IN COUNTERACTING RACISM SUSTAINABILITY Evaluation der Plakatkampagne der Stadt Graz gegen Rassismus Durchgeführt durch das ETC Graz März 2013 - 2 - Inhalt
MehrKonzepte erstellen Packend schreiben Den richtigen Verlag finden. Freizeit & Hobby
... bringt es auf den Punkt. Der Traum vom eigenen Buch kann wahr werden: In diesem Ratgeber erfahren Sie, wie Sie Ihre Buchidee in einem Exposé optimal präsentieren und den richtigen Verlag finden. Beispiele
MehrEinführung in die Phonetik und Phonologie. Allgemeiner Überblick
Einführung in die Phonetik und Phonologie Allgemeiner Überblick Phonetik und Phonologie Die beiden Bezeichnungen Phonetik und Phonologie sind aus dem griechischen Wort ϕωνþ (phōnē) abgeleitet, welches
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrDie gute literarische Übersetzung ist eine ganz eigene Kunst. Sie setzt sich zusammen aus einer Mischung
Sperrfrist: 20. Juni 2016, 19.00 Uhr Es gilt das gesprochene Wort. Grußwort des Bayerischen Staatsministers für Bildung und Kultus, Wissenschaft und Kunst, Dr. Ludwig Spaenle, bei der Verleihung des Übersetzerstipendiums
MehrPraxiseinblicke in die linguistische Korpusanalyse und die Erwartungen / Möglichkeiten bibliothekarischer Unterstützung
Praxiseinblicke in die linguistische Korpusanalyse und die Erwartungen / Möglichkeiten bibliothekarischer Unterstützung Susanne Strubel-Burgdorf, Institut für Anglistik, Amerikanistik und Keltologie Bonn
MehrAls Unterrichtsgrundlage in den Vorkursen und der E-Phase (1. Halbjahr) dient das Lehrbuch Straightforward (intermediate).
Schulinternes Curriculum Englisch Anmerkungen Als Unterrichtsgrundlage in den Vorkursen und der E-Phase (1. Halbjahr) dient das Lehrbuch Straightforward (intermediate). Nach Beendigung der Vorkurse findet
MehrPädagogische Hochschule Heidelberg - FB II - Fach Englisch Fachinterne Meldung zur mündlichen Prüfung im Frühjahr/Herbst 20...
Pädagogische Hochschule Heidelberg - FB II - Fach Englisch Fachinterne Meldung zur mündlichen Prüfung im Frühjahr/Herbst 20... Name: (Zutreffendes bitte unterstreichen) E-Mail: Telefon: Studienbeginn Englisch:
MehrLehrplan Englisch SII 2016 Raster UV Q-Phase LK
Q1.1-1 The American Dream Freedom and Justice, myths and realities Amerikanischer Traum Visionen und Lebenswirklichkeiten in den USA Lese- und Hörverstehen: Politische Rede, Bilder und Cartoons, Gedichte,
MehrServicestelle für Übersetzung Campus International. Das neue Wörterbuch der Universität Mannheim. Die Anmeldung
Das neue Wörterbuch der Universität Mannheim Ebenso wie ein einheitliches Corporate Design, also ein optischer Auftritt, trägt auch eine einheitliche Corporate Language, ein einheitlicher sprachlicher
Mehrgermanistischen Sprachwissenschaft Vorstellung der 1. Wer wir sind Sprachwissenschaft des Deutschen Übersicht
1 3 Vorstellung der germanistischen Sprachwissenschaft Johannes Gutenberg-Universität Mainz, 7.2.2012 Jochen Geilfuß-Wolfgang 1. Wer wir sind Übersicht 1. Wer wir sind 2. Unsere Ziele 3. Ein Beispiel 2
MehrPflegekinder mit Migrationshintergrund
Pflegekinder mit Forum 2 Input im Rahmen der Fachtagung Weiterdenken Weiterentwickeln Weitergehen. Hilfen zur Erziehung im Dialog 7. Juni 2016 in Gelsenkirchen, Sandra Fendrich, AKJStat Die Arbeitsstelle
MehrMüssen Texte statistisch anders ausgewertet werden als Menschen?
CROCO LINGUISTIC PROPERTIES OF TRANSLATIONS A CORPUS-BASED INVESTIGATION FOR THE LANGUAGE PAIR ENGLISH-GERMAN Müssen Texte statistisch anders ausgewertet werden als Menschen? Stella Neumann Grundüberlegung
MehrDialekt als Kulturerbe Das Projekt Sprachalltag in Nord-Baden-Württemberg
Ludwig-Uhland-Institut für Empirische Kulturwissenschaft Dialekt als Kulturerbe Das Projekt Sprachalltag in Nord-Baden-Württemberg Prof. Dr. Hubert Klausmann Rebekka Bürkle M.A. Unterstützt vom Ministerium
MehrLehrerbefragung Kostenlose Bildungsmedien online (Abstract, 9. Oktober 2013)
Lehrerbefragung Kostenlose Bildungsmedien online (Abstract, 9. Oktober 2013) Dieses Abstract ist Teil des dreijährigen Forschungsprojektes Bildungsmedien online an der Philosophisch-Sozialwissenschaftlichen
MehrDeutsches Referenzkorpus zur internetbasierten Kommunikation:
Deutsches Referenzkorpus zur internetbasierten Kommunikation: Fragen der Standardisierung und Datenerhebung Michael Beißwenger (Dortmund) Lothar Lemnitzer (Berlin) Internetbasierte Kommunikation Internetbasierte
MehrKorpuslinguistische Fallstudien zum Südtiroler Standardschriftdeutsch das Projekt "Korpus Südtirol"
Korpuslinguistische Fallstudien zum Südtiroler Standardschriftdeutsch das Projekt "Korpus Südtirol" Stefanie Anstein (Bozen) Abstract In this paper the linguistically annotated "Korpus Südtirol" is presented,
MehrScience Fiction im Deutschunterricht. Ein möglicher Unterrichtsentwurf zu Gudrun Pausewangs "Die letzten Kinder von Schewenborn"
Germanistik Frank Fraundorf Science Fiction im Deutschunterricht. Ein möglicher Unterrichtsentwurf zu Gudrun Pausewangs "Die letzten Kinder von Schewenborn" Unterrichtsentwurf UNIVERSITÄT BREMEN FACHBEREICH
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
MehrGewichtung in der Umfragepraxis. Von Tobias Hentze
Gewichtung in der Umfragepraxis Von Tobias Hentze Gliederung 1. Einführung 2. Gewichtungsarten 1. Designgewichtung 2. Non-Response-Gewichtung 3. Zellgewichtung 3. Fazit Gewichtung Definition: Ein Gewicht
MehrRichtlinien für die Zitierweise am Institut für Angewandte Informatik und Formale Beschreibungsverfahren AIFB
Richtlinien für die Zitierweise am Institut für Angewandte Informatik und Formale Beschreibungsverfahren AIFB Inhaltsverzeichnis 1. Hinweise zur Zitierweise und zum Literaturverzeichnis... 2 1.1. Allgemeine
MehrKorpusanalyse am IDS Die Korpora
Die Korpora DeReKo: Das Deutsche Referenzkorpus Die Korpora am IDS Größe: über 3,4 Milliarden Textwörter (Stand: 2008) Akquise: im Hinblick auf Umfang, Variabilität, Qualität und Aktualität; urheberrechtlich
MehrInhaltsverzeichnis. Vorwort 5
Inhaltsverzeichnis Vorwort 5 0 Einleitung 11 0.1 Ausgangspunkt und Fragestellung 11 0.2 Aufbau der Arbeit 16 Teill Theoretische Grundlagen 1 Anglizismen im Kontest von Entlehnung 21 1.1 Entlehnung 21 1.1.1
Mehr8 Fakultät für Philologie
8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene
MehrIndikatoren für Gesundheit. Dr. Joachim Hartlieb, MPH. Entwicklung von Indikatoren für Gesundheit in Kitas und Familienzentren
Dr. Joachim Hartlieb, MPH Entwicklung von Indikatoren für Gesundheit in Kitas und Familienzentren lat. indicare, anzeigen Indikatoren: (sozialwissenschaftlich definiert) eine beschränkte Stichprobe aus
MehrStudie zur Personalentwicklung mittelständischer Unternehmen in Tirol. Cornelia Strecker & Jonas Hampl
Studie zur Personalentwicklung mittelständischer Unternehmen in Tirol Cornelia Strecker & Jonas Hampl Innsbruck, 01.02.2014 1 Methodisches Vorgehen 2 Demografische Daten 3 Ergebnisse - Highlights 4 Dank
MehrZur lernersprachlichen Generierung referierender Ausdrücke in argumentativen Texten
Internationale Tagung der Deutschlehrerinnen und Deutschlehrer (IDT), Jena, 3. 8. August 2009 Margit Breckle, margit.breckle@gmx.de Heike Zinsmeister, heike.zinsmeister@uni-konstanz.de Zur lernersprachlichen
MehrDas Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv
Das Deutsche Textarchiv als Repositorium und Werkzeug Frank Wiegand (BBAW) Deutsches Textarchiv www.deutschestextarchiv.de wiegand@bbaw.de Deutsches Textarchiv Referenzkorpus für die schriftliche neuhochdeutsche
MehrWarum Stichproben? Vollerhebungen sind teuer Nehmen (zu)viel Zeit in Anspruch Sind evtl. destruktiv
Warum Stichproben? Vollerhebungen sind teuer Nehmen (zu)viel Zeit in Anspruch Sind evtl. destruktiv Voraussetzung für die Anwendung von Stichproben: Stichproben müssen repräsentativ sein, d.h. ein verkleinertes
MehrStatistik, Geostatistik
Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.
Mehr7. Einheit Nachhaltigkeit
7. Einheit Nachhaltigkeit Wachstum Wachstum (umgefähre Werte) 7 6 5 4 3 2 1 400 350 300 250 200 150 100 50 Bevölkerung (Mrd.) BIP (Int. $, 100 Mrd.) 0 1750 1800 1850 1900 1950 2000 0 Grenzen des Wachstums
MehrPlanungsübersicht Unterrichtsvorhaben in der Sek. II
Planungsübersicht Unterrichtsvorhaben in der Sek. II Thema Textgrundlage Zeitbedarf Inhaltsfeld(er) Die Macht des Wortes: Kann ein überzeugender Redner vor Gericht alles erreichen? Cicero, In Verrem II
MehrOperations Management
Operations Management Qualitätsmanagement Prof. Dr. Helmut Dietl Lernziele Nach dieser Veranstaltung sollen Sie wissen, was man unter Qualitätsmanagement versteht welche Ziele das Qualitätsmanagement verfolgt
MehrAux Flip in German: A Walk in the Woods
Aux Flip in German: A Walk in the Woods Erhard Hinrichs 1, Kathrin Beck 1, and Tsuneko Nakazawa 2 1 Seminar für Sprachwissenschaft Eberhard Karls Universität Tübingen 2 University of Tokyo Aux Flip in
Mehr(Wie) können Behandlungspfade Alkoholentzugsbehandlung wissenschaftlich evaluiert werden?
(Wie) können Behandlungspfade Alkoholentzugsbehandlung wissenschaftlich evaluiert werden? T. Magerkurth IDIKOS III, 19.02.2009, Ruhr-Universität Bochum Paderborn Was ist ein "Behandlungspfad" Definiert
MehrKapitel VIII - Tests zum Niveau α
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VIII - Tests zum Niveau α Induktive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh Testsituationen
Mehr