Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe
|
|
- Ewald Dirk Stieber
- vor 6 Jahren
- Abrufe
Transkript
1 Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe Institut für Angewandte Informationswissenschaft Definitionen Korpus das, 1. Belegsammlung von Texten oder Schriften [aus dem Mittelalter oder der Antike]. 2. einer wissenschaftlichen [Sprach]analyse zugrunde liegendes Material, repräsentative Sprachprobe. (Fremdwörterlexikon/Duden) 1
2 Definitionen Corpus [Pl. Corpora; lat. corpus >Körper<]. Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwi. Untersuch-ungen dienen. Stellenwert und Beschaffenheit des C. hängen weitgehend von den je spezifischen Frage-stellungen und methodischen Vorraussetzungen des theoretischen Rahmens der Untersuchung ab, wie sich z.b. an der unterschiedlichen Einschätzung empirischer Daten im Strukturalismus und in der generativen Transformationsgrammatik zeigt. (Lexikon der Sprachwissenschaft, Hadumod Bußmann): Definitionen A corpus is a collection of naturallyoccuring language text, chosen to characterize a state or variety of language. (John Sinclair, Entwickler von BOE) 2
3 Kritik an Korpora Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. (Chomsky 1962, zitiert nach McEnery 1996, S. 8) Traditionelle Korpora Erstellung des Oxford English Dictionary auf Hilfe von Freiwilligen basierende Korpuserstellung von 1858 bis zur Fertigstellung des Lexikons im Jahre 1928 wurden über vier Millionen Zitatstellen gesammelt 3
4 Traditionelle Korpora 3. Ausgabe von Webster`s New International Dictionary systematisches Lesen von Zeitungen, Zeitschriften und Büchern durch professionelle Lexikographen seit 1936 dadurch Erhöhung von 1,6 Millionen auf 4,5 Millionen Belegbeispiele bis zur 1961 erschienenen dritten Ausgabe HEUTE Auswerten und Durchsuchen von Korpusdaten mit Hilfe moderner Computer Verwendung im Bereich der Lexikographie unverzichtbar 4
5 Erste Computerkorpora Brown Corpus Erstes Korpus für die Benutzung mit einem Rechnersystem 1964 an der Brown University (USA) erstellt Brown Corpus 500 Texte aus 15 Genres ca Wörter je Text 1 Million Wörter: Maximum bei damaliger Computertechnologie und verfügbaren Geldmitteln 5
6 LOB Corpus Lancaster Oslo Bergen Corpus 1978 fertiggestellt basierend auf der Komposition des Brown Corpus konzipiert als britisches Gegenstück Texte der gleichen Genres aus dem gleichen Zeitraum ermöglichte den direkten Vergleich zwischen britischem und amerikanischem Englisch LIMAS Korpus In Deutschland: 1970 an der Universität Bonn erstellt entspricht in Textanzahl- und Umfang dem Brown Corpus enthält jedoch Texte aus 33 Themengebieten bislang einziges balanciertes Korpus deutscher Sprache 6
7 Erste Computerkorpora unter heutigen Gesichtspunkten relativ kleine Korpora Aber: heute noch häufige Verwendung in der Forschung Grund: zuverlässige Datenbasis, durch zahlreiche Forschungsarbeiten analysiert und annotiert Neue Möglichkeiten Trend zu empirischen Methoden der automatischen Spracherkennung und verarbeitung in der Computerlinguistik ermöglicht durch die Verfügbarkeit sehr großer Korpora natürlicher Sprache 7
8 Wichtige Aspekte Wiederverwendbarkeit bereits bestehender Korpora Entwicklung neuer Korpora Kooperative Infrastruktur zum Sammeln, Erhalten und Verbreiten von Korpora Repräsentativität bezeichnet die Auswahl der Texte Gesamtmenge möglicher Texte eines Korpus wird im voraus bestimmt Repräsentative Zufallsauswahl (sampling frame) 8
9 Balanciertheit bezeichnet die Art der Gesamtzusammenstellung des Korpus möglichst viele Textformen- und Sorten sowie unterschiedliche Sprachvarianten in einer vorher bestimmten Anzahl Balance zwischen den verschiedenen Kategorien Repräsentativität und Balanciertheit Laut Sinclair: balanciertes, repräsentatives Korpus = general corpus Abbildung allgemeiner Verwendung von Sprache Berücksichtigung von Spezial- und Fachsprache nur in dem Maße wie diese Variante auch im Alltag wiederzufinden ist 9
10 Balancierte Korpora Beispiele für balancierte Korpora: BNC LIMAS Brown Corpus Spezialkorpora Korpora, die bewußt nur einen bestimmten Teil oder eine bestimmte Kategorie einer Sprache abbilden, und somit auch nur für diesen bestimmten Sprach- oder Texttyp repräsentativ sind 10
11 Spezialkorpora Beispiele: Goethe-Korpus (IDS in Mannheim) Grimm-Korpus (IDS) Marx-Engels-Korpus (IDS) CLUE-Medizin-Korpus (Uni Erlangen) Fortschritt in der Computertechnik Speicherung immer größerer Textmengen Heute: Korpora umfassen mehrere 100 Millionen Wörter 11
12 Nutzen von Korpora Analyse natürlicher Sprache linguistischer Phänomene Training von statistischen Modellen zur automatischen Spracherkennung werden. automatische Erstellung von Lexika Berechnung häufiger Kollokationen Untersuchung von Frequenzverteilungen Verbesserung und Entwicklung von Programmen zur Prüfung von Rechtschreibung, Grammatik, automatischer Silbentrennung Multilinguale Textverarbeitungsprogramme Große Korpora BOE (Bank Of English) BNC (British National Corpus) IDS-Korpora (Institut für Deutsche Sprache) TIGER-Korpus (IMS Stuttgart) 12
13 BOE (Bank Of English) Umfangreichstes Korpus englischer Sprache Fertigstellung 1991 von COBUILD unter der Leitung von John Sinclair Ständige Erweiterung des Datenbestandes Januar 2002: 450 Mio. laufende Wortformen BNC (British National Corpus) Fertigstellung 1994 durch eine Gruppe von Wörterbuchverlagen (OUP, Longman, Chambers-Larousse) und akademischen Forschungszentren (Unis, British Library) Balanciertes Korpus mit 100 Mio. Wörter Samples mit max Wörtern Zugriffssystem SARA 13
14 IDS-Korpora Umfangreichste Sammlung deutscher Korpora am Institut für Deutsche Sprache in Mannheim Gesamtumfang: Mio. Textwörter Hauptsächlich Spezialkorpora (außer z.b. LIMAS) Zugriffssystem COSMAS Spezielle Verarbeitung von großen Korpora Standard-Tools zur Textverarbeitung reichen für solche Datenmengen nicht aus Notwendigkeit der Speicherung in einer Datenbank Spezielle Anforderungen beim Verarbeiten und Speichern von Korpustexten- und Analysen Entwicklung spezieller Systeme für Korpora 14
15 Zugriffssysteme SARA (SGML-Aware-Retrieval-Application) CORSICA (`Corpus storage and interactive retrieval') IMS Corpus Workbench COSMAS (Corpus Storage, Maintenance and Access System) CORSICA 15
16 Korpusannotationen Hinzufügung von Informationen zu einem Korpus Meistens linguistische Analysen der Korpusdaten: Analyse der Wortklasse über Morphologie und Syntax Semantische Analyse Einordnung in semantische Datenbanken Positionelle Attribute Position Wort pos. Attr. 1 pos. Attr pos. Attr. i n wort(0) pos_attr_1(0) pos_attr_2(0)... pos_attr_i(0) wort(1) pos_attr_1(1) pos_attr_2(1)... pos_attr_i(1) wort(n) pos_attr_1(n) pos_attr_2(n)... pos_attr_i(n) 16
17 Positionelle Attribute Lemma = Speicherung der Grundform einer jeden Wortform Tag = Zuordnung einer grammatischen Kategorie Positionelle Attribute Word Wordtag Lemma Parse Field I PPIS1 I [S[Nea:s.Nea:s] suspected VVDt suspect [Vd.Vd] why RRQq why [Fn?:o[Rq:c.Rq:c] he PPHS1m he [Nas:s.Nas:s] brought VVDt bring [Vd.Vd] it PPH1 it Auszug aus dem [Ni:o.Ni:o] SUSANNE-Korpus (Sampson 1995) along RL along [R:p.R:p]Fn?:o]S] 17
18 Tagging 2 Phasen des Tagging: 1. Tag-Zuordnung: Jeder Wortform wird eine Anzahl von möglichen Tags zugeordnet 2. Tag-Disambiguierung: Die in Phase 1 zugeordneten Tags werden disamibguiert, so dass ein eindeutig getaggtes Korpus entsteht. Disambiguierung Mehrdeutige Tag-Sequenz: he can can a can ProN Mod Mod Det Mod Nn Nn Nn Vb Vb Vb 18
19 Disambiguierung Disambiguierte Tag-Sequenz: he can can a can ProN Mod Vb Det Nn TAGGER TAGGIT (Brown Corpus) ENCGG Tagger (BOE) CLAWS (LOB, BNC) 19
20 Parsing Syntaktische Einheiten zusammenfassen und Abhängigkeiten voneinander bestimmen Syntaktisch analysierte Korpora treebanks: Analyse der Sätze beruht auf Syntaxbaum Kodierung Kodierung der Korpustexte für Einheitlichkeit Internationaler Standard: SGML (Standard Generalized Markup Language) Sammlung von Richtlinien zur Kodierung von Text: TEI (Text Encoding Initiative) 20
21 Tokenisierung Token = Einheit des Textes Tokenisierung = Ermittlung der Einheiten eines Textes, Bestimmung der Wortgrenzen Zukunft von Korpora Große Textdatenbanken Benutzer definieren Korpus für ihre Zwecke selbst 21
22 Literatur Zierl, Marco (1997): Entwicklung und Implementierung eines Datenbanksystems zur Speicherung und Verarbeitung von Textkorpora. Erlangen-Nürnberg. Cole, R. (ed.) (1998): Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. Bußmann, Hadumod. Lexikon der Sprachwissenschaft. 2., völlig neu bearbeitete Auflage. Stuttgart: Kröner (= Kröners Taschenausgabe Bd. 452) Links BOE IDS / COSMAS I BNC TIGER KURA Spider Korpus 22
Korpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
MehrKorpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.
Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora
MehrElektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrComputerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrInhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es
Inhalt und Typen von Korpora Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt von Korpora Korpora können die verschiedensten Texte in den unterschiedlichsten Zusammensetzungen
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrWiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Wiederholung: Forschungsfragen und Korpusdaten Korpusdaten können benutzt werden um zu entscheiden,
MehrEinführung in die Literaturrecherche
Einführung in die Literaturrecherche Von der Literaturliste zur Literatur Ich habe konkrete Literaturangaben vorliegen (z.b. aus dem Vorlesungsverzeichnis) und versuche diese am Campus zu finden Recherche
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrEinleitung. Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal
Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal Einleitung 1. Einleitung 2. Definitionen von Korpuslinguistik 2.1 Entstehung 2.1.1 : korpusbasiert vs. korpusgestützt 2.1.2 Generative
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrCOMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN
FACHBEITRÄGE COMPUTERLINGUISTISCHE PROBLEME BEI DER BEARBEITUNG GROSSER TEXTMENGEN Christoph Schwarz ZT ZTI IINF 323, Siemens AG München Anhand von Beispielen wird aufgezeigt, in welch hohem Maß die computerlinguistische
MehrOrganisatorisches. VL: Einführung in die Korpuslinguistik. Wiederholung: linguistische Daten. Diskussion
Organisatorisches VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 Mailingliste: Sie können sich auf der korpuslinguistik-vl@lists.hu-berlin.de eintragen
MehrLösungsvorschlag für das Übungsblatt 8. Aufgabe1.
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
Mehrein Wort ist nicht in 3 Jahren FAZ Hauptseminar: Einführung in die Korpuslinguistik Welche Wörter kommen nicht vor? Allerdings,...
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 ein Wort ist nicht in 3 Jahren FAZ kann man daraus schließen, dass es nicht mehr verwendet
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde
MehrGrundlagen und Definitionen
Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann
Mehr8 Fakultät für Philologie
8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene
MehrDer VITERBI-Algorithmus
Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des
MehrEinführung in die maschinelle Sprachverarbeitung
Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrSyntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M
OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet
MehrModul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon
MehrIch baue ein eigenes Korpus
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin
MehrDas Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten
Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten Ein Fallbeispiel aus der angewandten Wissenschaftssprachforschung Cordula Meißner
MehrEinführung in die maschinelle Sprachverarbeitung
Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden
MehrKollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik
Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse
MehrMorphologieanalyse und Lexikonaufbau. G.Schneider, SS 2000 Page 1
Morphologieanalyse und Lexikonaufbau. G.Schneider, SS 2000 Page 1 Korpuslinguistik I Morphologieanalyse und Lexikonaufbau (8. Vorlesung) Dozent: Gerold Schneider Übersicht Was ist Korpuslinguistik? Anwendungen
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrSprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k
Arbeitsstelle Computerphilologie Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k Cris%na Vertan cris%na.vertan@uni hamburg.de 18.01.2011 1 Überblick Das Kontext (Lehrangebot
MehrEszter Mózes: Tony McEnery & Andrew Hardie: Corpus Linguistics. Method, Theory and Practice Argumentum 8 (2012), Debreceni Egyetemi Kiadó
92 Recenzió Eszter Mózes Tony McEnery & Andrew Hardie: Corpus Linguistics. Method, Theory and Practice * Cambridge: Cambridge University Press, 2012, 294 Seiten Das vorliegende Buch wurde im Rahmen der
MehrEinführung in die Korpuslinguistik
Einführung in die Korpuslinguistik Ines Rehbein WS 09/10 Ines Rehbein (WS 09/10) VL Computerlinguistik Oktober 2009 1 / 48 Überblick 1 Wo kommen die linguistischen Daten her? 2 Korpuslinguistik Was macht
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte
MehrSemantic Role Labeling
Semantic Role Labeling Am Beispiel von EasySRL und SEMAFOR Max Depenbrock Proseminar "Tools für Computerlinguisten" 5.1.2018 Max Depenbrock SRL 5.1.2018 1 / 36 Was ist Semantic Role Labeling? Was ist Semantic
MehrTagger for German. Online BRILL-Tagger für das Deutsche
Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
Mehr1. Statistik und Computerlinguistik
03. JULI 2006: BLATT 1 1. Statistik und Computerlinguistik 1.1. Allgemeines Nachfolgend zur Einführung eine kurze Übersicht über die Rolle der Statistik in der Computerlinguistik - bezogen auf die einzelnen
MehrLinguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz
MehrTextGrid Arbeitsgruppen
TextGrid Arbeitsgruppen Eine Reihe von Arbeitsgruppen in TextGrid behandeln bestimmte Themengebiete und sichern die Arbeitspaket-übergreifende Diskussion. Sie arbeiten Themengebiete zur effizienten Informationsweitergabe
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrStrukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs
Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrTechnik und Arbeitsablauf für FALKO
Peter Adolphs Emil Kroymann Technik und Arbeitsablauf für FALKO 1 Software 1.1 EXMARaLDA Partitur-Editor EXMARaLDA ist ein Annotationswerkzeug für linguistische Korpora. Es wurde von der Universität Hamburg
MehrKurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren
Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive Lyrik seit den 1990er Jahren Christine Hummel & Stefan Engelberg Institut für Deutsche Sprache, Mannheim Universität
Mehr1 Word Sense Disambiguation - Grundlagen
7. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 2. Juli 2008 1 Word Sense Disambiguation
MehrProbabilistische kontextfreie Grammatiken
Probabilistische kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 08. Dezember 2015 Let s play a game Ich gebe Ihnen ein Nichtterminalsymbol. S, NP, VP, PP, oder POS-Tag
MehrNamed Entity Recognition (NER)
Named Entity Recognition (NER) Katharina Stein 01/12/2017 Named Entity Recognition 1 Inhalt Named Entity Recognition Was ist Named Entity Recognition? Bedeutung für Natural Language Processing Herausforderungen
MehrKorpusanalyse am IDS Die Korpora
Die Korpora DeReKo: Das Deutsche Referenzkorpus Die Korpora am IDS Größe: über 3,4 Milliarden Textwörter (Stand: 2008) Akquise: im Hinblick auf Umfang, Variabilität, Qualität und Aktualität; urheberrechtlich
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrCOSMAS II Corpus Search Management and Analysis System
COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrSupervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und
MehrHintergrund: Morphologische Produktivität
Hintergrund: Morphologische Produktivität Anke Lüdeling anke.luedeling@rz.hu-berlin.de einige Folien sind in Zusammenarbeit mit Stefan Evert (Osnabrück) entstanden Exkurs: Korpus & Korpuszählungen viele
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrDELA Wörterbücher ===========================================================
DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela
MehrEinführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig
Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:
MehrGATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008)
GATE General Architecture for Text Engineering Alexander Hein & Erik Dießler (VL Text Analytics - 08.05.2008) Überblick GATE Die Idee Die Architektur Was noch - JAPE / DIFF / GUK ANNIE Einige Beispiele
MehrGrammatiken und ANTLR
Grammatiken und ANTLR Zusatzfolien zu Algo Blatt 6 Author: Henry Schaefer http://www.majeeks.de/folien_blatt6.pdf Grammatik Definition: syntaktische Beschreibung einer Sprache (H.S.) Definiton Grammatik
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrTextdatenbanken. Sommersemester Vorlesung. - Klassische Korpuslinguistik - Uwe Quasthoff
Textdatenbanken Sommersemester 2009 9. Vorlesung - Klassische Korpuslinguistik - Uwe Quasthoff Universität Leipzig Institut für Informatik quasthoff@informatik.uni-leipzig.de Zwei Wege der Lehrmaterialien
MehrEinführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache
Einführung in die übersetzungsbezogene Terminologiearbeit Martin Volk Uni Zürich Dolmetscherschule Zürich / ZHW Übersicht über das Seminar 4 Wochen Präsentation Danach: praktische Übungen in Doppelstunden
MehrDaten Methoden Theorien Definitionen & Operationalisierungen
Definitionen Daten Methoden Theorien Definitionen & Operationalisierungen Eine Realdefinition legt fest, wie ein Ausdruck verwendet wird, indem sie die Beobachtungen, das Wissen, die Intuitionen, die wir
Mehrordnet.dk Vernetzung zwischen Wörterbuch und Korpus
ordnet.dk Vernetzung zwischen Wörterbuch und Korpus Jörg Asmussen Det Danske Sprog- og Litteraturselskab, DSL Gesellschaft für dänische Sprache und Literatur ordnet.dk Vernetzung 1. Das Projekt ordnet.dk
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrKookkurrenzanalyse Einführung
Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich
MehrVO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft
, Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.
MehrImplementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
MehrVernetzung von Daten im Deutschen Textarchiv
Vernetzung von Daten im Deutschen Textarchiv Susanne Haaf, Matthias Boenig, Christian Thomas, Alexander Geyken, Bryan Jurish, Frank Wiegand Berlin-Brandenburgische Akademie der Wissenschaften/Deutsches
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
MehrBIBLIOTHECA TEUBNERIANA LATINA (BTL) &
DATENBANK BIBLIOTHECA TEUBNERIANA LATINA (BTL) & THESAURUS LINGUAE LATINAE (TLL) ONLINE BIBLIOTHECA TEUBNERIANA LATINA & THESAURUS LINGUAE LATINAE ONLINE Online-Version (Kaufoption) Einmaliger Erwerb des
MehrAusgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH
Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Unterschied zwischen Normalisierung und Lemmatisierung? Enthält GermaNet schweizerdeutsche Einträge?
MehrInterdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen
Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2015: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache
MehrSemantik und Pragmatik
Semantik und Pragmatik SS 2005 Universität Bielefeld Teil 4, 6. Mai 2005 Gerhard Jäger Semantik und Pragmatik p.1/35 Prädikatenlogik: atomare Formeln Syntax JO, BERTIE, ETHEL, THE-CAKE... sind Individuenkonstanten
MehrDie Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.
Die Corpus Workbench und ihre Syntax Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Die IMS Open Corpus Workbench (CWB) Mächtige Konkordanz- und Korpusanalyse-Software
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrKorpuslinguistik Grundlagen Korpusrecherchemethoden
Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von
MehrKorpuslinguistik Grundlagen Korpusrecherchemethoden
Wortgruppenanalyse Korpuslinguistik Grundlagen Cluster Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach vor einem großen Publikum ist spr ein Konsonantencluster
MehrAuswahlbibliographie zum Studium der anglistischen Sprachwissenschaft
Helga Höhlein, Peter H. Marsden, Clausdirk Poliner Auswahlbibliographie zum Studium der anglistischen Sprachwissenschaft Mit Kommentaren Max Niemeyer Verlag Tübingen 1987 INHALT Seite Allgemeine Hilfsmittel.
MehrFinite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
Mehr