Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe

Größe: px
Ab Seite anzeigen:

Download "Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe"

Transkript

1 Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe Institut für Angewandte Informationswissenschaft Definitionen Korpus das, 1. Belegsammlung von Texten oder Schriften [aus dem Mittelalter oder der Antike]. 2. einer wissenschaftlichen [Sprach]analyse zugrunde liegendes Material, repräsentative Sprachprobe. (Fremdwörterlexikon/Duden) 1

2 Definitionen Corpus [Pl. Corpora; lat. corpus >Körper<]. Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwi. Untersuch-ungen dienen. Stellenwert und Beschaffenheit des C. hängen weitgehend von den je spezifischen Frage-stellungen und methodischen Vorraussetzungen des theoretischen Rahmens der Untersuchung ab, wie sich z.b. an der unterschiedlichen Einschätzung empirischer Daten im Strukturalismus und in der generativen Transformationsgrammatik zeigt. (Lexikon der Sprachwissenschaft, Hadumod Bußmann): Definitionen A corpus is a collection of naturallyoccuring language text, chosen to characterize a state or variety of language. (John Sinclair, Entwickler von BOE) 2

3 Kritik an Korpora Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. (Chomsky 1962, zitiert nach McEnery 1996, S. 8) Traditionelle Korpora Erstellung des Oxford English Dictionary auf Hilfe von Freiwilligen basierende Korpuserstellung von 1858 bis zur Fertigstellung des Lexikons im Jahre 1928 wurden über vier Millionen Zitatstellen gesammelt 3

4 Traditionelle Korpora 3. Ausgabe von Webster`s New International Dictionary systematisches Lesen von Zeitungen, Zeitschriften und Büchern durch professionelle Lexikographen seit 1936 dadurch Erhöhung von 1,6 Millionen auf 4,5 Millionen Belegbeispiele bis zur 1961 erschienenen dritten Ausgabe HEUTE Auswerten und Durchsuchen von Korpusdaten mit Hilfe moderner Computer Verwendung im Bereich der Lexikographie unverzichtbar 4

5 Erste Computerkorpora Brown Corpus Erstes Korpus für die Benutzung mit einem Rechnersystem 1964 an der Brown University (USA) erstellt Brown Corpus 500 Texte aus 15 Genres ca Wörter je Text 1 Million Wörter: Maximum bei damaliger Computertechnologie und verfügbaren Geldmitteln 5

6 LOB Corpus Lancaster Oslo Bergen Corpus 1978 fertiggestellt basierend auf der Komposition des Brown Corpus konzipiert als britisches Gegenstück Texte der gleichen Genres aus dem gleichen Zeitraum ermöglichte den direkten Vergleich zwischen britischem und amerikanischem Englisch LIMAS Korpus In Deutschland: 1970 an der Universität Bonn erstellt entspricht in Textanzahl- und Umfang dem Brown Corpus enthält jedoch Texte aus 33 Themengebieten bislang einziges balanciertes Korpus deutscher Sprache 6

7 Erste Computerkorpora unter heutigen Gesichtspunkten relativ kleine Korpora Aber: heute noch häufige Verwendung in der Forschung Grund: zuverlässige Datenbasis, durch zahlreiche Forschungsarbeiten analysiert und annotiert Neue Möglichkeiten Trend zu empirischen Methoden der automatischen Spracherkennung und verarbeitung in der Computerlinguistik ermöglicht durch die Verfügbarkeit sehr großer Korpora natürlicher Sprache 7

8 Wichtige Aspekte Wiederverwendbarkeit bereits bestehender Korpora Entwicklung neuer Korpora Kooperative Infrastruktur zum Sammeln, Erhalten und Verbreiten von Korpora Repräsentativität bezeichnet die Auswahl der Texte Gesamtmenge möglicher Texte eines Korpus wird im voraus bestimmt Repräsentative Zufallsauswahl (sampling frame) 8

9 Balanciertheit bezeichnet die Art der Gesamtzusammenstellung des Korpus möglichst viele Textformen- und Sorten sowie unterschiedliche Sprachvarianten in einer vorher bestimmten Anzahl Balance zwischen den verschiedenen Kategorien Repräsentativität und Balanciertheit Laut Sinclair: balanciertes, repräsentatives Korpus = general corpus Abbildung allgemeiner Verwendung von Sprache Berücksichtigung von Spezial- und Fachsprache nur in dem Maße wie diese Variante auch im Alltag wiederzufinden ist 9

10 Balancierte Korpora Beispiele für balancierte Korpora: BNC LIMAS Brown Corpus Spezialkorpora Korpora, die bewußt nur einen bestimmten Teil oder eine bestimmte Kategorie einer Sprache abbilden, und somit auch nur für diesen bestimmten Sprach- oder Texttyp repräsentativ sind 10

11 Spezialkorpora Beispiele: Goethe-Korpus (IDS in Mannheim) Grimm-Korpus (IDS) Marx-Engels-Korpus (IDS) CLUE-Medizin-Korpus (Uni Erlangen) Fortschritt in der Computertechnik Speicherung immer größerer Textmengen Heute: Korpora umfassen mehrere 100 Millionen Wörter 11

12 Nutzen von Korpora Analyse natürlicher Sprache linguistischer Phänomene Training von statistischen Modellen zur automatischen Spracherkennung werden. automatische Erstellung von Lexika Berechnung häufiger Kollokationen Untersuchung von Frequenzverteilungen Verbesserung und Entwicklung von Programmen zur Prüfung von Rechtschreibung, Grammatik, automatischer Silbentrennung Multilinguale Textverarbeitungsprogramme Große Korpora BOE (Bank Of English) BNC (British National Corpus) IDS-Korpora (Institut für Deutsche Sprache) TIGER-Korpus (IMS Stuttgart) 12

13 BOE (Bank Of English) Umfangreichstes Korpus englischer Sprache Fertigstellung 1991 von COBUILD unter der Leitung von John Sinclair Ständige Erweiterung des Datenbestandes Januar 2002: 450 Mio. laufende Wortformen BNC (British National Corpus) Fertigstellung 1994 durch eine Gruppe von Wörterbuchverlagen (OUP, Longman, Chambers-Larousse) und akademischen Forschungszentren (Unis, British Library) Balanciertes Korpus mit 100 Mio. Wörter Samples mit max Wörtern Zugriffssystem SARA 13

14 IDS-Korpora Umfangreichste Sammlung deutscher Korpora am Institut für Deutsche Sprache in Mannheim Gesamtumfang: Mio. Textwörter Hauptsächlich Spezialkorpora (außer z.b. LIMAS) Zugriffssystem COSMAS Spezielle Verarbeitung von großen Korpora Standard-Tools zur Textverarbeitung reichen für solche Datenmengen nicht aus Notwendigkeit der Speicherung in einer Datenbank Spezielle Anforderungen beim Verarbeiten und Speichern von Korpustexten- und Analysen Entwicklung spezieller Systeme für Korpora 14

15 Zugriffssysteme SARA (SGML-Aware-Retrieval-Application) CORSICA (`Corpus storage and interactive retrieval') IMS Corpus Workbench COSMAS (Corpus Storage, Maintenance and Access System) CORSICA 15

16 Korpusannotationen Hinzufügung von Informationen zu einem Korpus Meistens linguistische Analysen der Korpusdaten: Analyse der Wortklasse über Morphologie und Syntax Semantische Analyse Einordnung in semantische Datenbanken Positionelle Attribute Position Wort pos. Attr. 1 pos. Attr pos. Attr. i n wort(0) pos_attr_1(0) pos_attr_2(0)... pos_attr_i(0) wort(1) pos_attr_1(1) pos_attr_2(1)... pos_attr_i(1) wort(n) pos_attr_1(n) pos_attr_2(n)... pos_attr_i(n) 16

17 Positionelle Attribute Lemma = Speicherung der Grundform einer jeden Wortform Tag = Zuordnung einer grammatischen Kategorie Positionelle Attribute Word Wordtag Lemma Parse Field I PPIS1 I [S[Nea:s.Nea:s] suspected VVDt suspect [Vd.Vd] why RRQq why [Fn?:o[Rq:c.Rq:c] he PPHS1m he [Nas:s.Nas:s] brought VVDt bring [Vd.Vd] it PPH1 it Auszug aus dem [Ni:o.Ni:o] SUSANNE-Korpus (Sampson 1995) along RL along [R:p.R:p]Fn?:o]S] 17

18 Tagging 2 Phasen des Tagging: 1. Tag-Zuordnung: Jeder Wortform wird eine Anzahl von möglichen Tags zugeordnet 2. Tag-Disambiguierung: Die in Phase 1 zugeordneten Tags werden disamibguiert, so dass ein eindeutig getaggtes Korpus entsteht. Disambiguierung Mehrdeutige Tag-Sequenz: he can can a can ProN Mod Mod Det Mod Nn Nn Nn Vb Vb Vb 18

19 Disambiguierung Disambiguierte Tag-Sequenz: he can can a can ProN Mod Vb Det Nn TAGGER TAGGIT (Brown Corpus) ENCGG Tagger (BOE) CLAWS (LOB, BNC) 19

20 Parsing Syntaktische Einheiten zusammenfassen und Abhängigkeiten voneinander bestimmen Syntaktisch analysierte Korpora treebanks: Analyse der Sätze beruht auf Syntaxbaum Kodierung Kodierung der Korpustexte für Einheitlichkeit Internationaler Standard: SGML (Standard Generalized Markup Language) Sammlung von Richtlinien zur Kodierung von Text: TEI (Text Encoding Initiative) 20

21 Tokenisierung Token = Einheit des Textes Tokenisierung = Ermittlung der Einheiten eines Textes, Bestimmung der Wortgrenzen Zukunft von Korpora Große Textdatenbanken Benutzer definieren Korpus für ihre Zwecke selbst 21

22 Literatur Zierl, Marco (1997): Entwicklung und Implementierung eines Datenbanksystems zur Speicherung und Verarbeitung von Textkorpora. Erlangen-Nürnberg. Cole, R. (ed.) (1998): Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. Bußmann, Hadumod. Lexikon der Sprachwissenschaft. 2., völlig neu bearbeitete Auflage. Stuttgart: Kröner (= Kröners Taschenausgabe Bd. 452) Links BOE IDS / COSMAS I BNC TIGER KURA Spider Korpus 22

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Projektseminar "Texttechnologische Informationsmodellierung"

Projektseminar Texttechnologische Informationsmodellierung Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck

Mehr

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora

Mehr

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik

Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt und Typen von Korpora Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt von Korpora Korpora können die verschiedensten Texte in den unterschiedlichsten Zusammensetzungen

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Wiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten

Wiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Wiederholung: Forschungsfragen und Korpusdaten Korpusdaten können benutzt werden um zu entscheiden,

Mehr

Einführung in die Literaturrecherche

Einführung in die Literaturrecherche Einführung in die Literaturrecherche Von der Literaturliste zur Literatur Ich habe konkrete Literaturangaben vorliegen (z.b. aus dem Vorlesungsverzeichnis) und versuche diese am Campus zu finden Recherche

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Einleitung. Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal

Einleitung. Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal Einleitung 1. Einleitung 2. Definitionen von Korpuslinguistik 2.1 Entstehung 2.1.1 : korpusbasiert vs. korpusgestützt 2.1.2 Generative

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN

COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN FACHBEITRÄGE COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN Christoph Schwarz ZT ZTI IINF 323, Siemens AG München Anhand von Beispielen wird aufgezeigt, in welch hohem Maß die computerlinguistische

Mehr

Organisatorisches. VL: Einführung in die Korpuslinguistik. Wiederholung: linguistische Daten. Diskussion

Organisatorisches. VL: Einführung in die Korpuslinguistik. Wiederholung: linguistische Daten. Diskussion Organisatorisches VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 Mailingliste: Sie können sich auf der korpuslinguistik-vl@lists.hu-berlin.de eintragen

Mehr

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.

Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

ein Wort ist nicht in 3 Jahren FAZ Hauptseminar: Einführung in die Korpuslinguistik Welche Wörter kommen nicht vor? Allerdings,...

ein Wort ist nicht in 3 Jahren FAZ Hauptseminar: Einführung in die Korpuslinguistik Welche Wörter kommen nicht vor? Allerdings,... Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 ein Wort ist nicht in 3 Jahren FAZ kann man daraus schließen, dass es nicht mehr verwendet

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Grundlagen und Definitionen

Grundlagen und Definitionen Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann

Mehr

8 Fakultät für Philologie

8 Fakultät für Philologie 8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

Einführung in die maschinelle Sprachverarbeitung

Einführung in die maschinelle Sprachverarbeitung Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M

Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet

Mehr

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon

Mehr

Ich baue ein eigenes Korpus

Ich baue ein eigenes Korpus Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin

Mehr

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner

Mehr

Einführung in die maschinelle Sprachverarbeitung

Einführung in die maschinelle Sprachverarbeitung Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden

Mehr

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse

Mehr

Morphologieanalyse und Lexikonaufbau. G.Schneider, SS 2000 Page 1

Morphologieanalyse und Lexikonaufbau. G.Schneider, SS 2000 Page 1 Morphologieanalyse und Lexikonaufbau. G.Schneider, SS 2000 Page 1 Korpuslinguistik I Morphologieanalyse und Lexikonaufbau (8. Vorlesung) Dozent: Gerold Schneider Übersicht Was ist Korpuslinguistik? Anwendungen

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k

Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k Arbeitsstelle Computerphilologie Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k Cris%na Vertan cris%na.vertan@uni hamburg.de 18.01.2011 1 Überblick Das Kontext (Lehrangebot

Mehr

Eszter Mózes: Tony McEnery & Andrew Hardie: Corpus Linguistics. Method, Theory and Practice Argumentum 8 (2012), Debreceni Egyetemi Kiadó

Eszter Mózes: Tony McEnery & Andrew Hardie: Corpus Linguistics. Method, Theory and Practice Argumentum 8 (2012), Debreceni Egyetemi Kiadó 92 Recenzió Eszter Mózes Tony McEnery & Andrew Hardie: Corpus Linguistics. Method, Theory and Practice * Cambridge: Cambridge University Press, 2012, 294 Seiten Das vorliegende Buch wurde im Rahmen der

Mehr

Einführung in die Korpuslinguistik

Einführung in die Korpuslinguistik Einführung in die Korpuslinguistik Ines Rehbein WS 09/10 Ines Rehbein (WS 09/10) VL Computerlinguistik Oktober 2009 1 / 48 Überblick 1 Wo kommen die linguistischen Daten her? 2 Korpuslinguistik Was macht

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

Semantic Role Labeling

Semantic Role Labeling Semantic Role Labeling Am Beispiel von EasySRL und SEMAFOR Max Depenbrock Proseminar "Tools für Computerlinguisten" 5.1.2018 Max Depenbrock SRL 5.1.2018 1 / 36 Was ist Semantic Role Labeling? Was ist Semantic

Mehr

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

1. Statistik und Computerlinguistik

1. Statistik und Computerlinguistik 03. JULI 2006: BLATT 1 1. Statistik und Computerlinguistik 1.1. Allgemeines Nachfolgend zur Einführung eine kurze Übersicht über die Rolle der Statistik in der Computerlinguistik - bezogen auf die einzelnen

Mehr

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz

Mehr

TextGrid Arbeitsgruppen

TextGrid Arbeitsgruppen TextGrid Arbeitsgruppen Eine Reihe von Arbeitsgruppen in TextGrid behandeln bestimmte Themengebiete und sichern die Arbeitspaket-übergreifende Diskussion. Sie arbeiten Themengebiete zur effizienten Informationsweitergabe

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand

Mehr

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines

Mehr

Technik und Arbeitsablauf für FALKO

Technik und Arbeitsablauf für FALKO Peter Adolphs Emil Kroymann Technik und Arbeitsablauf für FALKO 1 Software 1.1 EXMARaLDA Partitur-Editor EXMARaLDA ist ein Annotationswerkzeug für linguistische Korpora. Es wurde von der Universität Hamburg

Mehr

Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren

Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive Lyrik seit den 1990er Jahren Christine Hummel & Stefan Engelberg Institut für Deutsche Sprache, Mannheim Universität

Mehr

1 Word Sense Disambiguation - Grundlagen

1 Word Sense Disambiguation - Grundlagen 7. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 2. Juli 2008 1 Word Sense Disambiguation

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Probabilistische kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 08. Dezember 2015 Let s play a game Ich gebe Ihnen ein Nichtterminalsymbol. S, NP, VP, PP, oder POS-Tag

Mehr

Named Entity Recognition (NER)

Named Entity Recognition (NER) Named Entity Recognition (NER) Katharina Stein 01/12/2017 Named Entity Recognition 1 Inhalt Named Entity Recognition Was ist Named Entity Recognition? Bedeutung für Natural Language Processing Herausforderungen

Mehr

Korpusanalyse am IDS Die Korpora

Korpusanalyse am IDS Die Korpora Die Korpora DeReKo: Das Deutsche Referenzkorpus Die Korpora am IDS Größe: über 3,4 Milliarden Textwörter (Stand: 2008) Akquise: im Hinblick auf Umfang, Variabilität, Qualität und Aktualität; urheberrechtlich

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

COSMAS II Corpus Search Management and Analysis System

COSMAS II Corpus Search Management and Analysis System COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und

Mehr

Hintergrund: Morphologische Produktivität

Hintergrund: Morphologische Produktivität Hintergrund: Morphologische Produktivität Anke Lüdeling anke.luedeling@rz.hu-berlin.de einige Folien sind in Zusammenarbeit mit Stefan Evert (Osnabrück) entstanden Exkurs: Korpus & Korpuszählungen viele

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

DELA Wörterbücher ===========================================================

DELA Wörterbücher =========================================================== DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela

Mehr

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008)

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008) GATE General Architecture for Text Engineering Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008) Überblick GATE Die Idee Die Architektur Was noch - JAPE / DIFF / GUK ANNIE Einige Beispiele

Mehr

Grammatiken und ANTLR

Grammatiken und ANTLR Grammatiken und ANTLR Zusatzfolien zu Algo Blatt 6 Author: Henry Schaefer http://www.majeeks.de/folien_blatt6.pdf Grammatik Definition: syntaktische Beschreibung einer Sprache (H.S.) Definiton Grammatik

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Textdatenbanken. Sommersemester Vorlesung. - Klassische Korpuslinguistik - Uwe Quasthoff

Textdatenbanken. Sommersemester Vorlesung. - Klassische Korpuslinguistik - Uwe Quasthoff Textdatenbanken Sommersemester 2009 9. Vorlesung - Klassische Korpuslinguistik - Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Zwei Wege der Lehrmaterialien

Mehr

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache Einführung in die übersetzungsbezogene Terminologiearbeit Martin Volk Uni Zürich Dolmetscherschule Zürich / ZHW Übersicht über das Seminar 4 Wochen Präsentation Danach: praktische Übungen in Doppelstunden

Mehr

Daten Methoden Theorien Definitionen & Operationalisierungen

Daten Methoden Theorien Definitionen & Operationalisierungen Definitionen Daten Methoden Theorien Definitionen & Operationalisierungen Eine Realdefinition legt fest, wie ein Ausdruck verwendet wird, indem sie die Beobachtungen, das Wissen, die Intuitionen, die wir

Mehr

ordnet.dk Vernetzung zwischen Wörterbuch und Korpus

ordnet.dk Vernetzung zwischen Wörterbuch und Korpus ordnet.dk Vernetzung zwischen Wörterbuch und Korpus Jörg Asmussen Det Danske Sprog- og Litteraturselskab, DSL Gesellschaft für dänische Sprache und Literatur ordnet.dk Vernetzung 1. Das Projekt ordnet.dk

Mehr

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen

Mehr

Kookkurrenzanalyse Einführung

Kookkurrenzanalyse Einführung Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich

Mehr

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.

Mehr

Implementierung eines Vektormodells

Implementierung eines Vektormodells Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014

Mehr

Vernetzung von Daten im Deutschen Textarchiv

Vernetzung von Daten im Deutschen Textarchiv Vernetzung von Daten im Deutschen Textarchiv Susanne Haaf, Matthias Boenig, Christian Thomas, Alexander Geyken, Bryan Jurish, Frank Wiegand Berlin-Brandenburgische Akademie der Wissenschaften/Deutsches

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

BIBLIOTHECA TEUBNERIANA LATINA (BTL) &

BIBLIOTHECA TEUBNERIANA LATINA (BTL) & DATENBANK BIBLIOTHECA TEUBNERIANA LATINA (BTL) & THESAURUS LINGUAE LATINAE (TLL) ONLINE BIBLIOTHECA TEUBNERIANA LATINA & THESAURUS LINGUAE LATINAE ONLINE Online-Version (Kaufoption) Einmaliger Erwerb des

Mehr

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH

Ausgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW   Subject: MTZH Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Unterschied zwischen Normalisierung und Lemmatisierung? Enthält GermaNet schweizerdeutsche Einträge?

Mehr

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2015: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache

Mehr

Semantik und Pragmatik

Semantik und Pragmatik Semantik und Pragmatik SS 2005 Universität Bielefeld Teil 4, 6. Mai 2005 Gerhard Jäger Semantik und Pragmatik p.1/35 Prädikatenlogik: atomare Formeln Syntax JO, BERTIE, ETHEL, THE-CAKE... sind Individuenkonstanten

Mehr

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die Corpus Workbench und ihre Syntax Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die IMS Open Corpus Workbench (CWB) Mächtige Konkordanz- und Korpusanalyse-Software

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Korpuslinguistik Grundlagen Korpusrecherchemethoden

Korpuslinguistik Grundlagen Korpusrecherchemethoden Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von

Mehr

Korpuslinguistik Grundlagen Korpusrecherchemethoden

Korpuslinguistik Grundlagen Korpusrecherchemethoden Wortgruppenanalyse Korpuslinguistik Grundlagen Cluster Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach vor einem großen Publikum ist spr ein Konsonantencluster

Mehr

Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft

Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft Helga Höhlein, Peter H. Marsden, Clausdirk Poliner Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft Mit Kommentaren Max Niemeyer Verlag Tübingen 1987 INHALT Seite Allgemeine Hilfsmittel.

Mehr

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010 Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes

Mehr

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de

Mehr