Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Größe: px
Ab Seite anzeigen:

Download "Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung"

Transkript

1 Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung

2 Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen

3 Annotationen Im sprachwissenschaftlichen Kontext sind mit Annotationen linguistische Annotationen gemeint ( Metadaten). Typisch für in der Korpuslinguistik verwendete Korpora ist, dass sie nur zusammenhängende und vollständige Texte aus natürlichen Produktionssituationen beinhalten; typisch für Korpora, die als linguistisch bezeichnet werden, dass sie die oben genannten linguistischen Annotationen enthalten. (Perkuhn/Keibel/Kupietz 2012: 46) Elemente unterhalb der Textebene werden mit linguistischen Informationen angereichert

4 Annotationen i.d.r. morphosyntaktische Annotierung (Wortarten, Lemmainformationen ) Tags Die Annotation macht implizite Informationen explizit und ermöglicht oder erleichtert die Suche nach abstrakten sprachlichen Phänomenen. Sie kann manuell, maschinell oder halbautomatisch erfolgen. (mittels POS-Tagger, z.b. TreeTagger)

5 Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

6 Beispiel Tokenisieren Eine norwegische Delegation will die Regierung und [ ] Opfer der Flutkatastrophe bewegen. Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

7 1. Tokenisieren a) Wortbestandteile festlegen (a-z, A-Z, 0-9, Umlaute) b) Worttrenner festlegen (Leerzeichen, Umbruch,?.,! usw.) c) Sonderfälle festlegen (z.b., usw. ) Problemfälle: U-Boot, mp3, deutsch-amerikanisch, CDU/CSU km/h, 4x100m-Staffel, R n B wird s Training oder manuelle Anpassung des Tokenisierers möglich Erstellung einer Bestandsliste des Korpus: Welche Token wie oft an welcher Position

8 Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

9 Beispiel Satzgrenzenerkennung <s> Eine norwegische Delegation will [ ] Opfer der Flutkatastrophe bewegen. </s>

10 2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

11 2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

12 2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

13 2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

14 Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

15 Beispiel Tagging zu APPR zu einer ART ein Kooperation NN Kooperation bei APPR bei der ART d Hilfe NN Hilfe für APPR für die ART d Opfer NN Opfer der ART d Flutkatastrophe NN Flutkatastrophe bewegen VVFIN bewegen. $.

16 3. Tagging Exkurs: Das Stuttgart-Tübingen Tagset Tagset = Liste der verwendeten Wortartenlabel Als Standard für deutschsprachige Korpora hat sich das Stuttgart- Tübingen Tagset (kurz: STTS) durchgesetzt. Das sogenannte kleine Tagset ohne explizite Tags für Flexionsmorphologie umfasst 54 Tags. (Lemnitzer/Zinsmeister 2010: 66) Jedes Token erhält genau einen Tag.

17 3. Tagging Exkurs: Das Stuttgart-Tübingen Tagset Getaggt werden: Wortart, syntaktische Position bzw. Distribution, grammatische Funktion, morphologische oder semantische Eigenschaften (Adj. wird attributiv/prädikativ verwendet, Präposition vs. Postposition, finites/nicht-finites Verb, Normales Nomen oder Eigenname) sowie bspw. Satzzeichen. Hierarchische Struktur von der allgemeineren Information zur spezifischeren Beispiel: PIS / PIAT Beispiel: VVFIN / VAFIN / VMFIN

18 3. Tagging Funktionsweise eines POS-Taggers: 1. Tokenisierung 2. Lexicon Look-Up Problem: Nicht alle Wörter stehen im Lexikon 3. Guesser Problem: Viele Wörter haben mehr als ein Label erhalten 4. Disambiguierung Beispiel einen : ART ein PIS ein VVFIN einen VVINF einen Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

19 3. Tagging Disambiguierung: Klassifiziert werden Tagger vor allem danach, wie sie bei der Disambiguierung also bei der Auswahl einer von mehreren möglichen Interpretationen eines Wortes vorgehen. (Perkuhn/Keibel/Kupietz 2012: 59) Symbolische Tagger verwenden Regeln Stochastische Tagger verwenden Wahrscheinlichkeiten Hybride/Transformationsbasierte Tagger Kombination von Regeln und Wahrscheinlichkeiten

20 3. Tagging Problematik: POS-Tagger machen Fehler. TreeTagger (D) annotiert ~ 95% korrekt (je nach Textsorte!) Das bedeutet: Bei 15-Wort-Sätzen ist die Wahrscheinlichkeit, dass ein Satz vollständig korrekt ist: 0,95 15 = 0,46 weniger als jeder zweite Satz ist komplett korrekt! Bei komplexeren Phänomenen (wo auch Menschen unterschiedlicher Meinung sind), ist die Fehlerrate deutlich höher

21 3. Tagging Fehlertypen: Wir suchen etwas, z.b. Adjektive Richtig-Positive Treffer: Tatsächlich Adjektive Richtig-Negative: Wörter, die wir zu Recht nicht gefunden haben, die also keine Adjektive sind. Falsche Treffer Falsch-Positive, Fehler 1. Art, α-fehler: Wörter, die keine Adjektive sind können wir (manuell) herausfiltern, relativ unproblematisch Falsch-Negative, Fehler 2. Art, β-fehler: Wörter, die Adjektive sind, die wir aber nicht gefunden haben Wie finden wir die?

22 3. Tagging Precision und Recall: Klassische Standardmaße des Information Retrieval Evaluation von Treffergenauigkeit und/oder Annotation (Vergabe von Tags) Precision: Anteil der zu Recht vergebenen unter den insgesamt vergebenen Tags t Recall: Anteil der zu Recht vergebenen unter den insgesamt zu vergebenden Tags t

23 3. Tagging Precision: Ein Wert von 100% bedeutet: Alle zugeordneten Tags t sind Richtig- Positive, das Tag t wurde also immer zu Recht vergeben. Falsch-Positive (zu Unrecht gefunden) und Richtig-Positive Tags t werden betrachtet. Recall: Ein Wert von 100% bedeutet: Alle zugeordneten Tags t sind richtigpositive Treffer und es gibt keine Falsch-Negativen. Falsch-Negative (zu Unrecht nicht gefunden) und richtig positive Tags t werden betrachtet.

24 Fazit [I]nterpretative Anreicherungen von Korpusdaten [sind] häufig sinnvoll oder sogar unverzichtbar, häufig aber auch falsch oder potenziell irreführend. Die einzige Möglichkeit damit umzugehen, ist deshalb meist, sie möglichst reflektiert zu verwenden. (Perkuhn/Keibel/Kupietz 2012: 62) Reflektiert und toolkritisch arbeiten!

25 Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

26 5. Parsing Die Annotation auf Satzebene setzt eine Satzanalyse voraus, die nach dem englischen to parse syntaktisch analysieren Parsing genannt wird. (Scherer 2006: 58) Zentrale Analyseeinheit ist der Satz bzw. kleinere syntaktische Einheiten (z.b. die Phrase). Annotiert werden vor allem phrasale Kategorien und syntaktische Funktionen. Auf Satzebene annotierte Korpora werden Baumbanken genannt. Deutschsprachige Baumbanken sind das NEGRA-Korpus, das TIGER- Korpus und die Tübinger Baumbanken TüBa-D/Z, TüPP-D/Z, TüBa-D/S.

27 5. Parsing SB: Subjekt HD: Head (verbaler Kopf) OA: Akkusativobjekt NK: Nominales Element AC : adpositionale Kasusmarkierung MNR: postnominale Modifikation

28 5. Parsing Parser analysieren die Struktur von Sätzen und fügen Informationen auf Satzebene in den Text ein. [ ] Die Voraussetzung für das Parsen eines Korpus ist, dass die Texte bereits getaggt sind. [ ] Die Annotation eines elektronischen Korpus wird heutzutage häufig maschinell vorgenommen, allerdings mit unterschiedlichem Erfolg. Während die meisten Tagger bis zu 98% aller Textwörter korrekt annotieren, liegt die Erfolgsrate von Parsern mit bis zu 80% deutlich niedriger. Aus diesem Grund werden viele Korpora nicht maschinell, sondern [ ] computergestützt geparst. Der hohe Aufwand bei der Annotation auf Satzebene ist auch der Grund dafür, warum die Zahl und der Umfang der geparsten Korpora insgesamt relativ gering ist. (Scherer 2006: 72f.)

29 Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen

30 Metadaten Metadaten beschreiben die Primärdaten eines Korpus, es sind also im Grunde Daten über Daten. Sie sollten so umfassend wie möglich sein. Typische Elemente sind beispielsweise: Autor, Datum der Veröffentlichung, Titel, Genre bzw. Textsorte, Quelle Sie beziehen sich auf Texte/Textsammlungen Textebene oder auch auf Korpora Korpusebene (= Dokumentation Metadaten?)

31 Metadaten Wozu? Dokumentation/Überblick: Textentstehung und Korpuszusammenstellung ist nachvollziehbar Wiederverwendbarkeit und Überprüfbarkeit Distributionelle Suche wird ermöglicht Möglichkeit, Teil- bzw. Subkorpora zu bilden: Teile der Daten werden nach bestimmten Kriterien ausgewählt

32 Metadaten Übungssequenz

33 Metadaten Freq per M 200,00 Freiheit Mittelwerte (Jahrzehnte) 175,00 150,00 125,00 100,00 75,00 50,00 25,00 0,

34 Metadaten Standards für Metadaten: TEI (Text Encoding Initiative) international und interdisziplinär für (korpus)linguistische Belange geeignet relevant sind v.a. die Kapitel TEI Header und Language Corpora CES (Corpus Encoding Standard) bzw. XCES (xml Schema für CES) entwickelt für Korpora in sprachtechnologischen Projekten für (korpus)linguistische Belange geeignet angelehnt an TEI Konventionen

35 Metadaten <?xml version="1.0"?> <doc> <header> </header> <body> </body> </doc> enthält Metadaten enthält Primärdaten

36 Metadaten <header> <author></author> <texttype></texttype> <date></date> <place></place> <url></url> <title></title> </header>

37 Metadaten Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

38 Metadaten Übungssequenz: Wählen Sie eine Partei. Machen Sie deren Parteiprogramm(e) ausfindig. Speichern Sie den Text/die Texte als txt-datei. Konvertieren Sie die txt-datei in eine xml-datei mit Metadaten.

39 Exkurs: Das Web als Korpus? Die Beantwortung der Frage Ist das WWW ein Korpus? ist abhängig von der Definition von Korpus. Für die Verwendung des Web als Korpus spricht: o Qualitative Abfragen möglich o Authentische Sprachdaten o Große Datenmenge verfügbar Gegen die Verwendung des Web als Korpus spricht: Keine quantitativen Abfragen möglich Blackbox (Umfang? Zusammensetzung? Qualität?) Kaum/keine Metadaten Stark eingeschränkte Abfragemöglichkeiten

40 Exkurs: Das Web als Korpus? Dennoch ist es möglich, das Web mit seinen Vorteilen (immense und umfassende Datenmenge, authentische und mehrsprachige Daten) zu nutzen: Zusammenstellung eines Korpus aus Webtexten Beschreibung und Bereinigung der Daten erforderlich Systematische Internetsuche mithilfe von Konkordanzprogrammen (z.b. WebConc, WebCorp, DeWaC) Urheberrecht beachten Literatur zum Thema: siehe Lemnitzer/Zinsmeister 2010: 44

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Tutorial: Automatische Textannotation mit WebLicht

Tutorial: Automatische Textannotation mit WebLicht Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung...

Mehr

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part of Speech Tagging. Linguistische Sicht. Carolin Deck Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung

Mehr

Tagging von Online-Blogs

Tagging von Online-Blogs Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte. Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes

Mehr

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

KI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am 23.10.2006 Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk Übersicht Aufgabenstellung

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von

Mehr

Erkennung von Teilsatzgrenzen

Erkennung von Teilsatzgrenzen Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV September 2015 David Stoppel, Franziska Wallner Einleitung Die Lemmalisten liefern Häufigkeitsangaben für Wörter der deutschen gesprochenen

Mehr

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007 POS Tagging Stefanie Dipper CL-Einführung, 2. Mai 2007 Überblick 1. Was ist POS-Tagging? 2. Geschichtlicher Überblick 3. ( Moderne Tagger) 1. Was ist POS-Tagging? POS (PoS) = part of speech: Wortart Tag:

Mehr

Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource

Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource Kerstin Eckart 18. Februar 2013 Kerstin Eckart 1 / 45 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner

Mehr

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI Syntax Ending Khoerudin Deutschabteilung FPBS UPI Traditionale Syntaxanalyse Was ist ein Satz? Syntax: ein System von Regeln, nach denen aus einem Grundinventar kleinerer Einheiten (Wörter und Wortgruppen)

Mehr

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Sprachsynthese: Part-of-Speech-Tagging

Sprachsynthese: Part-of-Speech-Tagging Sprachsynthese: Part-of-Speech-Tagging Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 29. Oktober 2014 Inhalt POS- Markov- Transformationsbasiertes

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

Linguistische Forschungsdaten

Linguistische Forschungsdaten Linguistische Forschungsdaten Andreas Witt Institut für Deutsche Sprache (IDS), Mannheim 45 Jahre und mehr IDS, Korpora, Verfügbarkeit, rechtliche Fragen (1) 1964 Das Institut für Deutsche Sprache wird

Mehr

I. Erste Schritte in CATMA

I. Erste Schritte in CATMA Einführung in CATMA I. Erste Schritte in CATMA II. III. IV. Texte analysieren Suchabfragen in CATMA Texte (kollaborativ) annotieren mit CATMA Weitere Suchabfragen: Annotationen auswerten I. Erste Schritte

Mehr

Titel. Hamdiye Arslan Éva Mújdricza-Maydt

Titel. Hamdiye Arslan Éva Mújdricza-Maydt Titel Logo: http://gate.ac.uk/gatewiki/cow/doc/gslidy/gate-logo-colour.png Hamdiye Arslan Éva Mújdricza-Maydt Referat zum HS Endliche Automaten PD Dr. Karin Haenelt Seminar für Computerlinguistik Ruprecht-Karls-Universität

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung

Mehr

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Der Digitale Assistent

Der Digitale Assistent Der Digitale Assistent Erfahrungen mit (halb)automatisierten Verfahren der Erschliessung in der Zentralbibliothek Zürich Andrea Malits Aus- und Weiterbildung / Innovation andrea.malits@zb.uzh.ch Programm

Mehr

WS 2009/10 18.11.2009

WS 2009/10 18.11.2009 Übung 5 Vorbereitung Öffnen Sie einen Texteditor, z.b. Word, Emacs, Textedit etc. und legen Sie Ihre Antwortdatei an. Der Name der Antwortdatei sollte nach folgendem Schema aufgebaut sein: KL_ueb5_

Mehr

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012 Wesentliche Methoden der Computerlinguistik Einführung in die Computerlinguistik Sommersemester 2012 Übersicht Morphologie: Lexikon, morphologische Analyse Syntax: PoS-Tagging, Unifikation, Chunking, Satzparser

Mehr

Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte

Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und

Mehr

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken SFB 441, Universität Tübingen Syntaktisch annotierte Baumbanken Ursprünglich: Morphosyntaktische Tags (POS) Anreicherung mit syntaktischen Informationen

Mehr

How to: Verwendung des Partitur-Editors mit geschriebenen Daten

How to: Verwendung des Partitur-Editors mit geschriebenen Daten How to: Verwendung des Partitur-Editors mit geschriebenen Daten Dieses Dokument erläutert die Verwendung vom EXMARaLDA Transkriptions-Editor bei der Arbeit mit geschriebenen Daten. Diese Anweisungen gelten

Mehr

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

HEALTH Institut für Biomedizin und Gesundheitswissenschaften HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg

Mehr

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter Einführung in die Sprachwissenschaft des Deutschen Syntax IV PD Dr. Alexandra Zepter Überblick Syntax Fokus auf linearer Ordnung: Sprachtypen, Topologisches Feldermodell Fokus auf hierarchischer Ordnung:

Mehr

Automatische Schlagwortvergabe aus der SWD für

Automatische Schlagwortvergabe aus der SWD für Automatische Schlagwortvergabe aus der SWD für Repositorien Saarländische Universitäts- und (SULB) Dr. Christoph Rösener Institut der Gesellschaft zur Förderung der Angewandten Informationsforschung e.v.

Mehr

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Text Mining und Textzusammenfassung Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Übersicht 1. Definition 2. Prozessablauf 3. Textzusammenfassung 4. Praxisbeispiel Definition Text Mining is the art

Mehr

Inaugural-Dissertation. Philosophie

Inaugural-Dissertation. Philosophie Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät

Mehr

Aufgabe 3 (Wortmeldung erforderlich) Nennen Sie in hierarchischer Anordnung vom Großen zum Kleinen fünf grammatische Beschreibungsebenen der Sprache.

Aufgabe 3 (Wortmeldung erforderlich) Nennen Sie in hierarchischer Anordnung vom Großen zum Kleinen fünf grammatische Beschreibungsebenen der Sprache. Drittes Gruppenspiel am 09.07.2003 Fragen und Antworten Aufgabe 1 (Wortmeldung erforderlich) Welche Kategorisierungen gibt es bei finiten Verbformen? Person, Numerus, Tempus, Modus, Genus Verbi Aufgabe

Mehr

WebApps - Einführung (Daten)

WebApps - Einführung (Daten) WebApps - Einführung (Daten) Die Rätoromanische Chrestomathie Claes Neuefeind & Mihail Atanassov Sprachliche Informationsverarbeitung Universität zu Köln 27. Oktober 2015 Das Ra toromanische DRC/ARC/PG

Mehr

Über den Einfluss von Part-of-Speech-Tags auf Parsing-Ergebnisse

Über den Einfluss von Part-of-Speech-Tags auf Parsing-Ergebnisse Sandra Kübler, Wolfgang Maier Über den Einfluss von Part-of-Speech-Tags auf Parsing-Ergebnisse 1 Einleitung Lange Zeit konzentrierte sich die Forschung im datengetriebenen statistischen Konstituenzparsing

Mehr

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus Document Engineering Langzeitarchivierungsaspekte im enlebenszyklus Motivation Disziplin der Computer Wissenschaft, welche Systeme für e aller Formen und Medien erforscht. enlebenszyklus en Management

Mehr

GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE

GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE RÄUME - GRENZEN - ÜBERGÄNGE: 5. Kongress der Internationalen Gesellschaft für Dialektologie des Deutschen 10. - 12. September 2015 Universität Luxemburg GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET

Mehr

MEDIENRESONANZANALYSE DO-IT-YOURSELF

MEDIENRESONANZANALYSE DO-IT-YOURSELF Nanette Aimée Besson MEDIENRESONANZANALYSE DO-IT-YOURSELF Ein Computerkurs für PR-Praktiker Dieses Handbuch ist als Unterstützung bei der computergestützten Erstellung einer individuellen Medienresonanzanalyse

Mehr

Aufgaben aus Kegli 2 (Korpuslinguistik)

Aufgaben aus Kegli 2 (Korpuslinguistik) Aufgaben aus Kegli 2 (Korpuslinguistik) Kapitel 1 1. Überprüfen Sie mithilfe einer beliebigen Suchmaschine den Sprachgebrauch im Internet. Finden Sie die Formen wegen dem Regen bzw. wegen des Regens und

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Überlegungen zur Modifikation und Erweiterung von STTS für das Tagging von Korpora zur internetbasierten Kommunikation

Überlegungen zur Modifikation und Erweiterung von STTS für das Tagging von Korpora zur internetbasierten Kommunikation Überlegungen zur Modifikation und Erweiterung von STTS für das Tagging von Korpora zur internetbasierten Kommunikation Thomas Bartz Michael Beißwenger Angelika Storrer CLARIN-D-Workshop: Das STTS-Tagset

Mehr

Relation Extraction zur. deutschsprachiger Firmendossiers. Diplomarbeit. Martin Had

Relation Extraction zur. deutschsprachiger Firmendossiers. Diplomarbeit. Martin Had Diplomarbeit Relation Extraction zur Ergänzung deutschsprachiger Firmendossiers Martin Had Diplomarbeit Fakultät für Informatik Technische Universität Dortmund 2. März 2009 Betreuer: Prof. Dr. Katharina

Mehr

Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren

Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive Lyrik seit den 1990er Jahren Christine Hummel & Stefan Engelberg Institut für Deutsche Sprache, Mannheim Universität

Mehr

XML als Beschreibungssprache syntaktisch annotierter Korpora

XML als Beschreibungssprache syntaktisch annotierter Korpora Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören

Mehr

DWDS: Hilfe Kurzübersicht

DWDS: Hilfe Kurzübersicht DWDS: Hilfe Kurzübersicht (auch online unter http://www.dwds.de/?corpus=1&opt=hilfe&qu) Voreinstellungen Lemmasuche: Suchwörter werden automatisch zum Lemma expandiert. Vorsicht: befindet sich das Suchwort

Mehr

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung Christoph Draxler (München) Hannah Kermes & Elke Teich (Saarbrücken) Aufbau einer technischen Infrastruktur:

Mehr

Korpuslinguistik in der linguistischen Lehre Erfolge und Misserfolge

Korpuslinguistik in der linguistischen Lehre Erfolge und Misserfolge Korpuslinguistik in der linguistischen Lehre Erfolge und Misserfolge 18. Januar 2011 D-Spin Workshop, BBAW, Berlin Inhalt Ideen und Resultate Hoffnungen und Enttäuschungen Bedürfnisse und Probleme Ausblick

Mehr

INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.

Mehr

Warum Named Entities für die Chunk-Analyse wichtig sind

Warum Named Entities für die Chunk-Analyse wichtig sind Warum Named Entities für die Chunk-Analyse wichtig sind Ilona Steiner Zusammenfassung In diesem Papier wird untersucht, inwiefern in Systemen zur syntaktischen Annotation von deutschen Korpora die Erkennung

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Syntax II WS 2011/2012 Manfred Pinkal Geschachtelte Strukturen in natürlicher Sprache [ der an computerlinguistischen Fragestellungen interessierte Student im ersten

Mehr

Wortartannotation für die digitalen Geisteswissenschaften

Wortartannotation für die digitalen Geisteswissenschaften Wortartannotation für die digitalen Geisteswissenschaften Ulrich Heid Universität Hildesheim Institut für Informationswissenschaft und Sprachtechnologie Bereich Computerlinguistik Sprachtechnologie Universitätsplatz

Mehr

. Syntaktische und semantische Annotation frühneuhochdeutscher Hexenverhörprotokolle. Fabian Barteld 29.11.2013

. Syntaktische und semantische Annotation frühneuhochdeutscher Hexenverhörprotokolle. Fabian Barteld 29.11.2013 .. Syntaktische und semantische Annotation frühneuhochdeutscher Hexenverhörprotokolle Fabian Barteld Fabian.Barteld@uni-hamburg.de 29.11.2013 Fabian Barteld Annotation frnhd. Hexenverhörprotokolle 29.11.2013

Mehr

VorlaugeGuidelinesfurdasTaggingdeutscherTextcorpora AnneSchiller,SimoneTeufel,ChristineStockert mitstts InstitutfurmaschinelleSprachverarbeitung UniversitatStuttgart SeminarfurSprachwissenschaft UniversitatTubingen

Mehr

Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt

Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt Marc Reznicek and Heike Zinsmeister Workshop: Modeling non-standardized writing DGfS Jahrestagung, Potsdam

Mehr

STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten

STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten Marc Reznicek, Heike Zinsmeister STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten 1 Motivation Für viele aktuelle Fragestellungen der Zweit- und Fremdspracherwerbsforschung ( L2- Erwerbsforschung

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer HPSG Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer Gliederung Einleitung Kongruenz Allgemein Zwei Theorien der Kongruenz Probleme bei ableitungsbasierenden Kongruenztheorien Wie syntaktisch

Mehr

Einführung Syntaktische Funktionen

Einführung Syntaktische Funktionen Syntax I Einführung Syntaktische Funktionen Syntax I 1 Syntax allgemein Syntax befasst sich mit den Regeln, mit denen man Wörter zu grammatischen Sätzen kombinieren kann. Es gibt unterschiedliche Modelle

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Eigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW

Eigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW Eigennamenerkennung mit großen lexikalischen Ressourcen Jörg Didakowski BBAW Was sind Eigennamen? Sprachliche Zeichen (Eigennamen) das Bezeichnete (Named Entity) Was sind Eigennamen? Eigennamen bezeichnen

Mehr

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt und Typen von Korpora Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt von Korpora Korpora können die verschiedensten Texte in den unterschiedlichsten Zusammensetzungen

Mehr

Whitepaper Bio-Mode. Quelle: http://freshideen.com/trends/bio-kleidung.html

Whitepaper Bio-Mode. Quelle: http://freshideen.com/trends/bio-kleidung.html Whitepaper Bio-Mode Quelle: http://freshideen.com/trends/bio-kleidung.html Seite 1 von 11 Wo wird über Bio-Mode diskutiert? 0,79% 0,76% 0,00% 0,56% 5,26% 9,81% 9,93% 0,15% 72,73% News Soziale Netzwerke

Mehr

Wortarten und Korpus

Wortarten und Korpus Linguistik Computerlinguistik Petra Steiner Wortarten und Korpus Automatische Wortartenklassifikation durch distributionelle und quantitative Verfahren. Shaker Verlag Aachen 2004 Bibliografische Information

Mehr

Modulhandbuch. Module des beantragten Master-Studiengangs Sprach- und Texttechnologie (Nebenfach) im Fachbereich II an der Universität Trier SWS:

Modulhandbuch. Module des beantragten Master-Studiengangs Sprach- und Texttechnologie (Nebenfach) im Fachbereich II an der Universität Trier SWS: Modulhandbuch Module des beantragten Master-Studiengangs Sprach- und Texttechnologie (Nebenfach) im Fachbereich II an der Universität Trier Modul: Sprach- und Textverarbeitung STTMN1 Leistungspunkte pro

Mehr

Korpuslinguistik & das Web

Korpuslinguistik & das Web Korpuslinguistik & das Web Proseminar Web-basierte Techniken in der Computerlinguistik WS 2012 / 2013 Michaela Regneri Sessel-Linguisten vs. Korpuslinguisten Kompetenz Performanz 2 Korpus vs. Armchair

Mehr

Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC. www.deutschestextarchiv.de

Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC. www.deutschestextarchiv.de Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC Suchmaschine DDC, Linguistische Analyse Suchmaschine DDC (Dialing/DWDS-Concordancer) unscharfe Suchen, reguläre Ausdrücke, Metadatenfilter,

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0

Mehr

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Syntax. Alla Shashkina

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Syntax. Alla Shashkina Syntax Alla Shashkina Was ist Syntax? Satzlehre System von Regeln, die beschreiben, wie aus einem Inventar von Grundelementen (Morphemen, Wörtern, Satzgliedern) durch spezifische syntaktische Mittel (Morphologische

Mehr

Inhaltsverzeichnis. Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis

Inhaltsverzeichnis. Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis V Inhaltsverzeichnis Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis V XI XIII XVI Danksagendes Vorwort 1 1 Einleitung 2 2 Großschreibung: historisch linguistisch didaktisch

Mehr

Metadaten für multimodale Corpora

Metadaten für multimodale Corpora Metadaten für multimodale Corpora Bernhard Jackl jackl@phonetik.uni-muenchen.de 09. April 2015 CLARIN-D Workshop München, 09.04.2015 1 / 22 We kill people based on metadata. General Michael Hayden, former

Mehr

Metadaten I: XMP & Co 30.01.2013

Metadaten I: XMP & Co 30.01.2013 Metadaten I: XMP & Co 30.01.2013 Metadaten = Zur Erinnerung Zur Erinnerung Metadaten = Daten über Daten Zur Erinnerung Metadaten = Daten über Daten Strukturelle Descrip:ve Technische Administra:ve Zur

Mehr

Syntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister

Syntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister Syntaktische Annotationen Korpuslinguistik Dr. Heike Zinsmeister 18.11.2011 Syntax Gestern war mir, wie vielen europäischen Abgeordneten, die Teilnahme unmöglich, da der Flug von Air France, mit dem wir

Mehr

Superstrukturen. präsentiert von Esther Müller

Superstrukturen. präsentiert von Esther Müller Superstrukturen präsentiert von Esther Müller Gliederung Was sind Superstrukturen? Funktion von Superstrukturen Regeln für f r Superstrukturen Festlegung von Superstrukturen Basisstruktur Einteilung verschiedener

Mehr

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme

Mehr

Grammatik des Standarddeutschen III. Michael Schecker

Grammatik des Standarddeutschen III. Michael Schecker Grammatik des Standarddeutschen III Michael Schecker Einführung und Grundlagen Nominalgruppen Nomina Artikel Attribute Pronomina Kasus (Subjekte und Objekte, Diathese) Verbalgruppen Valenz und Argumente

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22

Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22 1/22 Formale Methoden 1 Gerhard Jäger Gerhard.Jaeger@uni-bielefeld.de Uni Bielefeld, WS 2007/2008 12. Dezember 2007 2/22 Bäume Baumdiagramme Ein Baumdiagramm eines Satzes stellt drei Arten von Information

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

Aus Alt mach Neu Einführung eines Redaktionssystems unter Berücksichtigung von Altdaten

Aus Alt mach Neu Einführung eines Redaktionssystems unter Berücksichtigung von Altdaten Aus Alt mach Neu Einführung eines Redaktionssystems unter Berücksichtigung von Altdaten 1 Zur Person Sophie Boulas Im Umfeld der Technischen Dokumentation seit 1998 tätig Entwicklung von SGML- bzw. XML-basierten

Mehr

Die Aufarbeitung und Analyse der Daten in Lernerkorpora

Die Aufarbeitung und Analyse der Daten in Lernerkorpora Universität Augsburg Lehrstuhl für Romanische Sprachwissenschaft Unter besonderer Berücksichtigung des Französischen Sommersemester 2012 Proseminar: Synchronische Sprachwissenschaft: Korpuslinguistik Dozent:

Mehr

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: ) Modulhandbuch für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester 2013 (Version: 2013-06-26) 1 Modulübersicht V=Vorlesung, Ü=Übung, S=Seminar, P=Praktikum Semester Modulnr. Titel der

Mehr

Grammatik im engen Sinn: Grammatik = Syntax Von syntaxis = Zusammenordnung.

Grammatik im engen Sinn: Grammatik = Syntax Von syntaxis = Zusammenordnung. Grammatik im engen Sinn: Grammatik = Syntax Von syntaxis = Zusammenordnung. Elemente: - Morphosyntax: Flexionen mit syntaktischer Funktion (Kasus, Tempus, Genus Verbi etc.) - Distribution ( Was kann womit

Mehr

Damit Du viaverbi immer schnell starten kannst, fügst Du es am besten Deinem Dock hinzu. Ziehe einfach das Symbol aud dem Programme-Ordner auf das Dock, suche Dir einen Platz zwischen den anderen Programmen

Mehr

Kaufmännische Berufsmatura im Kanton Zürich

Kaufmännische Berufsmatura im Kanton Zürich Aufnahmeprüfung 2014 Deutsch Serie 1 Sprachprüfung (40 Min.) Verfassen eines Textes (40 Min.) Hilfsmittel: Duden nur für das Verfassen eines Textes Name... Vorname... Adresse...... Maximal erreichbare

Mehr

Inhalt.

Inhalt. Inhalt EINLEITUNG II TEIL A - THEORETISCHE ASPEKTE 13 GRAMMATIK 13 Allgemeines 13 Die sprachlichen Ebenen 15 MORPHOLOGIE 17 Grundbegriffe der Morphologie 17 Gliederung der Morpheme 18 Basis- (Grund-) oder

Mehr