Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung
|
|
- Leander Sauer
- vor 7 Jahren
- Abrufe
Transkript
1 Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide
2 Themen Wortsegmentierung Tokenisierung = Erkennung von Wörtern und Interpunktion Satzsegmentierung Erkennung von Satzgrenzen
3 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Digitale Texte sind Folgen von Einzelzeichen.
4 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Die Leerraumzeichen (Leerzeichen, Zeilenwechsel) begrenzen Wörter.
5 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Einige Interpunktionszeichen (Punkt, Ausrufezeichen, Doppelpunkt,... ) können Sätze oder Wörter begrenzen.
6 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Einige Interpunktionszeichen (Bindestrich, Apostroph, Punkt,... ) können auch Bestandteile von Wörtern sein.
7 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Wörter und Interpunktionssymbole heissen Token im Sprachtechnologie-Jargon. Eine Tokenisierung an Leerraumzeichen ist meist ungenügend!
8 Warum benötigt man Textsegmentierung? Warum Wortsegmentierung/Tokenisierung? Rohe digitale Texte liegen in Dateien als eine Folge von Einzelzeichen vor. Tokens sind die grundlegenden Analyseeinheiten für nachgeschaltete sprachtechnologische Anwendungen. Wörter werden ausgezählt, in Korpus-Suchmaschinen indexiert, in ihrer Grundform und Wortart bestimmt. Warum Satzsegmentierung? Sätze werden syntaktisch und inhaltlich analysiert, in andere Sprachen übersetzt. Warum ist gute Segmentierung wichtig? Jeder Segmentierungsfehler hat vielfältige Nachfolgefehler in der weiteren Verarbeitung zur Folge.
9 Beispiele für gute Tokenisierer
10 Rohtext-Tokenisierer des TreeTaggers (Schmid, 2006) mit vertikalisierter Rohtext-Ausgabe 1. Rohtext in einer Datei $ cat file.txt "Bach sche Musik mag Dr. Fritz. Ja." 2. Benutzererweiterbare Abkürzungsdatei $ cat ger-abbrev Dr. usw. 3. Befehlszeilenaufruf im UNIX-Stil $ separate-punctuation +1 +s +l ger-abbrev file.txt " Bach sche Musik mag Dr. Fritz. Ja
11 Der LT-TTT2 XML-Tokenizer (Grover, 2008) XML-Input für Tokenisierer <document><text><p> This is an example. There are two sentences. </p></text></document> XML-Output mit Wort- und Satzsegmentierung <document><text><p> <s id="s1"> <w id="w3" c="w" pws="yes">this</w> <w id="w8" c="w" pws="yes">is</w> <w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w> <w id="w21" pws="no" sb="true" c=".">.</w> </s> <s id="s2"> <w id="w23" c="w" pws="yes">there</w> <w id="w29" c="w" pws="yes">are</w> <w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w> <w id="w46" pws="no" sb="true" c=".">.</w> </s> </p></text></document>
12 Tokenisierer mit regulären Ausdrücke Tokenisierer in der Programmiersprache Python Jeder Computerlinguistik-Studierende im 2. Semester kann mit regulären Ausdrücken auf wenigen Zeilen einen regelbasierten Tokenisierer schreiben! Einfach anpassbar auf die Textsorte Für überschaubare Textmengen empfohlen! Vorteil: Machen dieselben Fehler konsequent! Gute Abkürzungslisten erlauben 99% korrekte Satzgrenzenerkennung.
13 Satzsegmentierung mit maschinellen Lernverfahren Für grosse Textmengen empfohlen! Nachteil: Unsystematische Fehler können auftreten! Statistisches System PUNKT (Kiss and Strunk, 2006) benötigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkürzungslisten klassifiziert für Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 99,3% der Satzpunkte und 97,5% der Abkürzungspunkte korrekt. isentenizer (Wong et al., 2014) Ebenfalls multilingual wie PUNKT. Lernt von perfekt segmentierten Trainingsdaten. Bestehende Modelle sind anpassbar auf neue Texte.
14 Schwierigkeiten der Textsegmentierung
15 Schwierigkeiten der Wortsegmentierung Schwierige Wörter enthalten Anführungszeichen: «Naturfreunde»-Bergheim Apostrophe: geht s geht + s, l eau l + eau, aujourd hui Bindestriche: semble-t-il semble + -t-il Punkte: S.A.C. Leerraumzeichen: Mehrtokenwörter wie New York Masseinheiten: 30% 30 + %,
16 Schwierigkeit der Satzsegmentierung: Punktdisambiguierung Funktion von Punkten: Satzendepunkt? Legende: = Nicht-Leerraumzeichen. w e i l D r. H a n s a u f.. w w w. u z h. c h. u n d a m 3 0. i s t. g e r n e. " " B i t t e. E i e r u s w. D a s Abkürzungspunkt! Punkte in URL! Ordinalzahl! Satzendepunkt! Abkürzungs- und Satzendepunkt!
17 Rückbau von Worttrennung am Zeilenende Abbildung: Silbentrennung am Seitenende einer Buchseite Rückbau von Silbentrennung (en. dehyphenation) Eine wichtige Aufgabe bei in schmalen Spalten gesetzten Texten (Zeitungen). Problem: graphematische Modifikationen in (älteren) Schriftsystemen: Zuk-ker Zucker Automatischer Rückbau von Silbentrennung über Seitengrenzen hinaus erfordert gute Layouterkennung (OLR).
18 Beispiel: Tokenisiertes Französisch im Text+Berg Korpus <div> <s lang="fr" n="a13-s56"> <w xml:id="a13-s56-w1" >Il</w> <w xml:id="a13-s56-w2" >est</w> <w xml:id="a13-s56-w3" >plus</w> <w xml:id="a13-s56-w4" >simple</w> <w xml:id="a13-s56-w5" >semble</w> <w xml:id="a13-s56-w6" >-t-il</w> <w xml:id="a13-s56-w7" >de</w> <w xml:id="a13-s56-w8" >surveiller</w> <w xml:id="a13-s56-w9" >l </w> <w xml:id="a13-s56-w10" >enneigement</w> <w xml:id="a13-s56-w11" >des</w> <w xml:id="a13-s56-w12" >Alpes</w>... <w xml:id="a13-s56-w29" >.</w> </s> </div>
19 Zusammenfassung
20 Zusammenfassung Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zu lösen. Sie lässt sich für Texte mit normierter Orthographie im Allgemeinen sehr gut lösen mit bestehenden oder selbst erstellten Programmen. Aber es gibt immer Restfehler, welche in der nachgeschalteten Verarbeitung Nachfolgefehler erzeugen. Regelbasierte oder statistische Lösungen erreichen bis 99% Genauigkeit bei der Satzsegmentierung. Abkürzungslexika, welche auf die Textsorte zugeschnitten sind, stellen ein wertvolles Hilfsmittel dar. Statistische Ansätze können bei genügend grossen Korpora ohne Abkürzungslisten vergleichbare Leistung erbringen. Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeuge abgestimmt werden.
21 Vielen Dank! Dr. Simon Clematide Institut für Computerlinguistik Universität Zürich
22 Literaturangaben I Grover, C. (2008). Lt-ttt2 example pipelines documentation. Available from: Kiss, T. and Strunk, J. (2006). Unsupervised multilingual sentence boundary detection. Computational Linguistics, 32(4): Available from: Schmid, H. (2006). Treetagger. Available from: uni-stuttgart.de/projekte/corplex/treetagger/decisiontreetagger.html. Wong, D. F., Chao, L. S., and Zeng, X. (2014). isentenizer-: Multilingual sentence boundary detection model. The Scientific World Journal, 2014:10. Available from:
HS 2016: Einführung in die Computerlinguistik I
HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftextskript
MehrTokenisierer Überblick
1 1. Überblick (engl. Tokenizers) sind Programme, die Texte für die Weiterverarbeitung durch anderer Programme (z.b. Tagger, Stemmer, Lemmatisierer oder Parser) in Teilketten, sog. Token zerlegen. Was
MehrHS 2016: Einführung in die Computerlinguistik I
HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftextskript
MehrMaschinelle Sprachverarbeitung Tokenisierung
Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die
Mehr1. Aufgaben eines Tokenizers
Lerneinheit Tokenisierung ist eine absolut notwendige Vorstufe für jede weitere computerlinguistische Verarbeitung eines Textes (u.a.: für die syntaktische Analyse). 1. Aufgaben eines Tokenizers Aufgaben
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrTextnormalisierung. Uwe Reichel IPS, LMU München 4. Mai 2010
Textrmalisierung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 4. Mai 2010 Inhalt Satzsegmentierung Wortrmalisierung Tokenisierung Token-Zerlegung Outputformat Inhalt 1 Satzsegmentierung
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
MehrModul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon
MehrErstsemestrigentag 2016 Computerlinguistik (und Sprachtechnologie)
Erstsemestrigentag 2016 Computerlinguistik (und Sprachtechnologie) Institut für Computerlinguistik 15. September 2016 Erstsemestrigentag Computerlinguistik 15. September 2016 Institut für Computerlinguistik
MehrTokenizer. Motivation. Ein einfacher Tokenizer. Zweck und Funktion eines Tokenizers. These are words. Eingabe = [these,are,words,'.'].
Tokenizer Motivation Übersicht Was sind Tokenizer? Der Tokenizer von Covington Aufrufdiagramm Definition und Arbeitsweise der einzelnen Prädikate Programmiertechnik Look-Ahead Wort- und Satzgrenzen erkennen
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrInformationsextraktionssystem ANNIE
Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 10/11 Inhalt 1 Einführung: Informationsextraktion Begriffsklärung eines Informationsextraktionssystems 2 Einführung in Getting Started
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrEinführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik
Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik Dozentin: Wiebke Petersen 12. Foliensatz Wiebke Petersen Einführung CL 1 Kurzwiederholung der letzten Sitzung Dateien
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Dozentin: Wiebke Petersen 3.12.2009 Wiebke Petersen Einführung CL (WiSe 09/10) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter.
MehrErstsemestrigentag 2018 Computerlinguistik und Sprachtechnologie
Erstsemestrigentag 2018 Computerlinguistik und Sprachtechnologie Institut für Computerlinguistik 13. September 2018 Erstsemestrigentag Computerlinguistik 13. September 2018 Institut für Computerlinguistik
MehrAnhang III: Modulhandbuch
Anhang III: Modulhandbuch Das Modulhandbuch wird gemäß 1 Abs. (1) der Satzung der Technischen Universität Darmstadt zur Regelung der Bekanntmachung von Satzungen der Technischen Universität Darmstadt vom
MehrModul 1: Wege in die digitale Welt
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 1: Wege in die digitale Welt Martin Volk volk@cl.uzh.ch Themen in diesem Modul 1. Was verstehen wir unter Digital Humanities?
MehrErstsemestrigentag 2017 Computerlinguistik (und Sprachtechnologie)
Erstsemestrigentag 2017 Computerlinguistik (und Sprachtechnologie) Institut für Computerlinguistik 14. September 2017 Erstsemestrigentag Computerlinguistik 14. September 2017 Institut für Computerlinguistik
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrZiele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901
Doris Jansen-Tang Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901 Historische Entwicklung, Analyse und Vorschläge zur Veränderung der Duden-Norm, unter besonderer Berücksichtigung
MehrZuerst wird die Bedingung ausgewertet. Ist sie erfüllt, wird der Rumpf des while-statements ausgeführt. Nach Ausführung des Rumpfs wird das gesamte
Zuerst wird die Bedingung ausgewertet. Ist sie erfüllt, wird der Rumpf des while-statements ausgeführt. Nach Ausführung des Rumpfs wird das gesamte while-statement erneut ausgeführt. Ist die Bedingung
MehrAutomatische Textzusammenfasung
Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln Gliederung 1) Einleitung & Überblick 2) Ansätze
MehrSprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)
Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrText+Berg digital. Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk.
Text+Berg digital Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk. Universität Zürich Institut für Computerlinguistik 12. Juni 2009
MehrTokenizer. Motivation. Zweck und Funktion eines Tokenizers. Ein einfacher Tokenizer. : These are words. [these, are, words,'.'] These are words.
Tokenizer Motivation bersicht Was sind Tokenizer? Der Tokenizer von Covington Aufrufdiagramm Definition und Arbeitsweise der einzelnen PrŠdikate Wort- und Satzgrenzen erkennen Tokenisieren von Dateien
MehrSprachsynthese: Textnormalisierung
Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung
MehrMaschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber
Maschinelles Übersetzen natürlicher Sprachen 2 Praktikum SS 2012 Torsten Stüber Zielstellung Entwicklung eines einfachen Übersetzungssystems I saw her duck. Übersetzer Ich sah ihre Ente. SMT-System Statistical
MehrRechtschreibung und Rechtschreibunterricht
Gerhard Augst und Mechthild Dehn Rechtschreibung und Rechtschreibunterricht Können Lehren Lernen Eine Einführung für Studierende und Lehrende aller Schulformen Ernst Klett Verlag Vorwort Vorspiel: Vom
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin
MehrDie Regeln der deutschen Rechtschreibung
Die Regeln der deutschen Rechtschreibung Vollständig und verständlich dargeboten von Klaus Heller OLMS- WEIDMANN 1 Grundsätzliches 11 1.1 Schreibung und Lautung 11 1.2 Schreibung und Bedeutung 12 2 Die
MehrInformationsextraktion mit endlichen Automaten
Informationsextraktion mit endlichen Automaten HS: Information Retrieval Dozentin: Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Referentinnen: Galina Sigwarth,
MehrKorpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.
Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrTitel. Hamdiye Arslan Éva Mújdricza-Maydt
Titel Logo: http://gate.ac.uk/gatewiki/cow/doc/gslidy/gate-logo-colour.png Hamdiye Arslan Éva Mújdricza-Maydt Referat zum HS Endliche Automaten PD Dr. Karin Haenelt Seminar für Computerlinguistik Ruprecht-Karls-Universität
MehrAnnotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrDigital Humanities Recherche im DWDS und DTA
Digital Humanities Recherche im DWDS und DTA mit Booleschen Operatoren und Regulären Ausdrücken Jena Language & Information Engineering (JULIE) Lab Friedrich-Schiller-Universität Jena, Germany http://www.julielab.de
MehrDie deutsche Sprache
Die deutsche Sprache Inhalt Vorwort 5 Inhalt IZur Ein führ uns II Die neuen Schreibweisen III Die Wortschreibung III. 1 So funktioniert unsere Schrift: Buchstabe, Wort und Satz_ III. 1.1 Artikulationswechsel
MehrMaschinelle Übersetzung
Maschinelle Übersetzung Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com MÜ Ansätze Zwei Dimensionen: Verarbeitungstiefe Art der verwendeten Technik Seite 2 Verarbeitunstiefe Seite
MehrSKOPOS Webinar 22. Mai 2018
SKOPOS Webinar 22. Mai 2018 Marktforschung 2020: Künstliche Intelligenz und automatische Text Analysen? Christopher Harms, Consultant Research & Development 2 So? Terminator Exhibition: T-800 by Dick Thomas
MehrPython für Linguisten
Python für Linguisten Dozentin: Wiebke Petersen & Co-Dozentin: Esther Seyarth Fortgeschrittene Zeichenkettenverarbeitung mit regulären Ausdrücken Esther Seyarth Python 1 Motivation Wir haben bereits einige
MehrPython für Linguisten
Python für Linguisten Dozentin: Wiebke Petersen & Valentin Heinz 8. Foliensatz Petersen & Heinz Python 1 Zielsetzung für lawstats.py Korpus: verschiedene deutsche Gesetze im XML-Format, c.a. 400 000 Token
MehrNeue Erkenntnisse aus unstrukturierten Daten gewinnen
Neue Erkenntnisse aus unstrukturierten Daten gewinnen Univ.-Prof. Dr. Josef Küng Institut für anwendungsorientierte Wissensverarbeitung (FAW) Johannes Kepler Universität Linz In Zusammenarbeit mit Mag.
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrDigital Humanities: Übung 3
Digital Humanities: Übung 3 Meta-Daten und Auszeichnungssprachen: XML Sven Büchel Friedrich-Schiller-Universität Jena Philosophische Fakultät Institut für Germanistische Sprachwissenschaft Lehrstuhl für
MehrÜbung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie
Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Wintersemester 2009/10, Prof. Dr. Udo Hahn, Erik Fäßler Übungsblatt 6 vom 10.12.2009 Abgabe bis 15.12.2009, 23:59 Uhr; per
MehrInhaltsverzeichnis WORTKOMBINATIONEN... 1
Wortkombinationen Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Was leistet die Funktion Wortkombinationen? Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von
MehrINFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
MehrTwitterdaten und Technisches
3. Vorverarbeitung von Twitterdaten und Technisches Seminar Computerlinguistische Analyse von Twitterdaten Tatjana Scheffler, Universität Potsdam tatjana.scheffler@uni-potsdam.de! 24.4.2013 Heute Finalisierung
MehrThomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orellfüssli Verlag AG / Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt
MehrHow to: Verwendung des Partitur-Editors mit geschriebenen Daten
How to: Verwendung des Partitur-Editors mit geschriebenen Daten Dieses Dokument erläutert die Verwendung vom EXMARaLDA Transkriptions-Editor bei der Arbeit mit geschriebenen Daten. Diese Anweisungen gelten
MehrDer VITERBI-Algorithmus
Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des
MehrDigital Humanities: Übung 2
Digital Humanities: Übung 2 Reguläre Ausdrücke und Suche im DTA Sven Büchel Friedrich-Schiller-Universität Jena Philosophische Fakultät Institut für Germanistische Sprachwissenschaft Lehrstuhl für Computerlinguistik
MehrThomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orell füssli Verlag AG / PH P H Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrInstitut für Computerlinguistik Wie verstehen Computer Sprache?
Institut für Computerlinguistik Wie verstehen Computer Sprache? Jeannette Roth, Mathias Müller 11. Juli 2017 Wir 11. Juli 2017 University of Zurich, Institut für Computerlinguistik, Roadshow, Jeannette
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrErkennung und Visualisierung attribuierter Phrasen in Poetiken
Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
Mehr1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close
1/19 Kern-Methoden zur Extraktion von Informationen Sebastian Marius Kirsch skirsch@moebius.inka.de 2/19 Gliederung 1. Verfahren zur Extraktion von Informationen 2. Extraktion von Beziehungen 3. Maschinelles
MehrLanguageTool, eine Stil- und Grammatikprüfung
LanguageTool, eine Stil- und Grammatikprüfung LanguageTool, was ist das? LanguageTool, kurz LT, ist eine OpenSource-Erweiterung für LibreOffice, mit der Grammatik und Stil eines Dokumentes überprüft werden.
MehrMit Formatierungszeichen arbeiten
Mit Formatierungszeichen arbeiten Inhaltsverzeichnis Sonderzeichen Suchen und Ersetzen... 1 Das Dialogfeld Ersetzen... 1 Weitere Bereinigungen im Text... 3 Das manuelle Zeilenende... 3 Weitere Tipps zum
MehrCorpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt
Corpus based Identification of Text Segments Thomas Ebert Betreuer: MSc. Martin Schmitt Übersicht 1. Motivation 2. Ziel der Arbeit 3. Vorgehen 4. Probleme 5. Evaluierung 6. Erkenntnisse und offene Fragen
Mehr8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features
Humboldt-Universität zu Berlin 8. Mai 2008 1 2 logistic regression 3 Benutzer 4 Fazit 5 Quellen Was ist? is a suite of Java libraries for the linguistic analysis of human. Was ist? is a suite of Java libraries
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrHow to: Segmentierung
How to: Segmentierung Dieses Dokument erläutert die Verwendung der eingebauten Segmentierungsalgorithmen der endlichen Maschinen des EXMARaLDA Partitur-Editors. Es sind keine Vorkenntnisse über Algorithmen,
MehrDie Klasse MiniJava ist in der Datei MiniJava.java definiert:
Die Klasse MiniJava ist in der Datei MiniJava.java definiert: import javax.swing.joptionpane; import javax.swing.jframe; public class MiniJava { public static int read () { JFrame f = new JFrame (); String
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrLinux I II III Res/Pro WN/TT Reguläre Ausdrücke Editoren Scripting. Linux II. 2 Linux II. Reguläre Ausdrücke Editoren Scripting. Ressourcen-Vorkurs
Linux II 2 Linux II Reguläre Ausdrücke Editoren Scripting POSIX POSIX POSIX ist ein UNIX-Standard, der bestimmte grundlegende Funktionen und Eigenschaften von UNIX-Systemen definiert. Dazu gehören auch
MehrInhalt und Überblick. Visuelle Kognition Adrian Schwaninger Universität Zürich. Erkennung und Repräsentation Ansichtenbasierte Ansatze Überblick
Einleitung Visuelle Kognition Adrian Schwaninger Universität Zürich Inhalt und Überblick Repräsentation, Erkennung, Kategorisierung Traditioneller Ansatz Strukturelle Beschreibungen Ansichtenbasierte Modelle
MehrStudienfach Linguistische Informatik. 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS
1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS 2 Lehrveranstaltungen VL Grundlagen der Computerlinguistik 1 (2 SWS) UE Grundlagen der Computerlinguistik 1 (2 SWS) UE Arbeitstechniken der
MehrComputer, Fehler, Orthographie. Tobias Thelen Institut für Kognitionswissenschaft Universität Osnabrück
Computer, Fehler, Orthographie Tobias Thelen Institut für Kognitionswissenschaft Universität Osnabrück Übersicht Unterstützung von Kooperation durch das Internet Maschinenlesbare Korpora Aufbereitung und
MehrSprachsynthesesysteme
Sprachsynthesesysteme Computerlinguistik WS 09/10 07.01.2010 Lisa Orszullok Kim Weßels Anika Stallmann Übersicht Aufgaben der Anwendung Linguistische Schwierigkeiten Linguistische Ebenen Aktueller Stand
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was
MehrWorthäufigkeiten - Worthäufigkeiten analysieren
Worthäufigkeiten - Worthäufigkeiten analysieren Inhaltsverzeichnis WORTHÄUFIGKEITEN - WORTHÄUFIGKEITEN ANALYSIEREN... 1 Worthäufigkeiten - Worthäufigkeiten analysieren Die einfachste Funktion von MAXDictio
MehrModulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )
Modulhandbuch für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester 2013 (Version: 2013-06-26) 1 Modulübersicht V=Vorlesung, Ü=Übung, S=Seminar, P=Praktikum Semester Modulnr. Titel der
MehrTreeTagger. Deborah Watty
TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.
MehrTutorial: Automatische Textannotation mit WebLicht
Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung...
MehrZerlegung von Webuser-Kommentaren
Zerlegung von Webuser-Kommentaren Simon Rüppel Lehrstuhl für heoretische Informationstechnik 20.02.2013 1. Motivation Ziel: Part of Speech (POS) - agging für Social Media exte -> Jedem Wort (oken) eine
MehrAutomatische Prüfung von Wikipedia-Artikeln
Automatische Prüfung von Wikipedia-Artikeln WikiCon 2013 23.11.2013 Daniel Naber Überblick Worum geht es hier (nicht)? Fehlerbeispiele Überblick LanguageTool LanguageTool Funktionsprinzip Fehlermuster
MehrLinguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Linguistische Aufbereitung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.01.2011 Linguistische Aufbereitung Es war einmal eine kleine Hexe, die war erst einhundertsiebenundzwanzig Jahre alt,
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrLearning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo
Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation Yupeng Guo 1 Agenda Introduction RNN Encoder-Decoder - Recurrent Neural Networks - RNN Encoder Decoder - Hidden
MehrSeminar Informationsvisualisierung
Seminar Informationsvisualisierung Thema: Seminar Dozent: Dr. Dirk Zeckzer zeckzer@informatik.uni-leipzig.de Sprechstunde: nach Vereinbarung Umfang: 2 Prüfungsfach: Modul Fortgeschrittene Computergrafik
MehrBrauchen wir neue Wörter?Neologismen als Problem und Aufgabe von Lexikographie und Computerlinguistik p.1
Brauchen wir neue Wörter? Neologismen als Problem und Aufgabe von Lexikographie und Computerlinguistik Lothar Lemnitzer lothar@sfs.uni-tuebingen.de Münster, 12. November 2004 Brauchen wir neue Wörter?Neologismen
MehrEntwicklung einer Anwendung zur Erkennung von Täuschungsversuchen
Entwicklung einer Anwendung zur Erkennung von Täuschungsversuchen Theoretische Ausarbeitung Miriam Friedrich Matr.-Nr.: 3062857 1. Prüfer: Prof. Dr. rer. nat. Alexander Voß 2. Prüfer: Bastian Küppers,
MehrDas Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko
Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007 Informationsextraktion Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren
Mehr