Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung

Größe: px
Ab Seite anzeigen:

Download "Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung"

Transkript

1 Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide

2 Themen Wortsegmentierung Tokenisierung = Erkennung von Wörtern und Interpunktion Satzsegmentierung Erkennung von Satzgrenzen

3 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Digitale Texte sind Folgen von Einzelzeichen.

4 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Die Leerraumzeichen (Leerzeichen, Zeilenwechsel) begrenzen Wörter.

5 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Einige Interpunktionszeichen (Punkt, Ausrufezeichen, Doppelpunkt,... ) können Sätze oder Wörter begrenzen.

6 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Einige Interpunktionszeichen (Bindestrich, Apostroph, Punkt,... ) können auch Bestandteile von Wörtern sein.

7 Segmentierte Schriftsysteme und Zeichenklassen Ü b l i c h e r w e i s e w i r d e i n T e x t b e i d e r T o k e n i s i e r u n g i n s e i n e W ö r t e r z e r l e g t. D i e W h i t e - S p a c e - T o k e n i s i e r u n g i s t d i e e i n f a c h s t e F o r m e i n e r s o l c h e n Z e r l e g u n g. Wörter und Interpunktionssymbole heissen Token im Sprachtechnologie-Jargon. Eine Tokenisierung an Leerraumzeichen ist meist ungenügend!

8 Warum benötigt man Textsegmentierung? Warum Wortsegmentierung/Tokenisierung? Rohe digitale Texte liegen in Dateien als eine Folge von Einzelzeichen vor. Tokens sind die grundlegenden Analyseeinheiten für nachgeschaltete sprachtechnologische Anwendungen. Wörter werden ausgezählt, in Korpus-Suchmaschinen indexiert, in ihrer Grundform und Wortart bestimmt. Warum Satzsegmentierung? Sätze werden syntaktisch und inhaltlich analysiert, in andere Sprachen übersetzt. Warum ist gute Segmentierung wichtig? Jeder Segmentierungsfehler hat vielfältige Nachfolgefehler in der weiteren Verarbeitung zur Folge.

9 Beispiele für gute Tokenisierer

10 Rohtext-Tokenisierer des TreeTaggers (Schmid, 2006) mit vertikalisierter Rohtext-Ausgabe 1. Rohtext in einer Datei $ cat file.txt "Bach sche Musik mag Dr. Fritz. Ja." 2. Benutzererweiterbare Abkürzungsdatei $ cat ger-abbrev Dr. usw. 3. Befehlszeilenaufruf im UNIX-Stil $ separate-punctuation +1 +s +l ger-abbrev file.txt " Bach sche Musik mag Dr. Fritz. Ja

11 Der LT-TTT2 XML-Tokenizer (Grover, 2008) XML-Input für Tokenisierer <document><text><p> This is an example. There are two sentences. </p></text></document> XML-Output mit Wort- und Satzsegmentierung <document><text><p> <s id="s1"> <w id="w3" c="w" pws="yes">this</w> <w id="w8" c="w" pws="yes">is</w> <w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w> <w id="w21" pws="no" sb="true" c=".">.</w> </s> <s id="s2"> <w id="w23" c="w" pws="yes">there</w> <w id="w29" c="w" pws="yes">are</w> <w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w> <w id="w46" pws="no" sb="true" c=".">.</w> </s> </p></text></document>

12 Tokenisierer mit regulären Ausdrücke Tokenisierer in der Programmiersprache Python Jeder Computerlinguistik-Studierende im 2. Semester kann mit regulären Ausdrücken auf wenigen Zeilen einen regelbasierten Tokenisierer schreiben! Einfach anpassbar auf die Textsorte Für überschaubare Textmengen empfohlen! Vorteil: Machen dieselben Fehler konsequent! Gute Abkürzungslisten erlauben 99% korrekte Satzgrenzenerkennung.

13 Satzsegmentierung mit maschinellen Lernverfahren Für grosse Textmengen empfohlen! Nachteil: Unsystematische Fehler können auftreten! Statistisches System PUNKT (Kiss and Strunk, 2006) benötigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkürzungslisten klassifiziert für Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 99,3% der Satzpunkte und 97,5% der Abkürzungspunkte korrekt. isentenizer (Wong et al., 2014) Ebenfalls multilingual wie PUNKT. Lernt von perfekt segmentierten Trainingsdaten. Bestehende Modelle sind anpassbar auf neue Texte.

14 Schwierigkeiten der Textsegmentierung

15 Schwierigkeiten der Wortsegmentierung Schwierige Wörter enthalten Anführungszeichen: «Naturfreunde»-Bergheim Apostrophe: geht s geht + s, l eau l + eau, aujourd hui Bindestriche: semble-t-il semble + -t-il Punkte: S.A.C. Leerraumzeichen: Mehrtokenwörter wie New York Masseinheiten: 30% 30 + %,

16 Schwierigkeit der Satzsegmentierung: Punktdisambiguierung Funktion von Punkten: Satzendepunkt? Legende: = Nicht-Leerraumzeichen. w e i l D r. H a n s a u f.. w w w. u z h. c h. u n d a m 3 0. i s t. g e r n e. " " B i t t e. E i e r u s w. D a s Abkürzungspunkt! Punkte in URL! Ordinalzahl! Satzendepunkt! Abkürzungs- und Satzendepunkt!

17 Rückbau von Worttrennung am Zeilenende Abbildung: Silbentrennung am Seitenende einer Buchseite Rückbau von Silbentrennung (en. dehyphenation) Eine wichtige Aufgabe bei in schmalen Spalten gesetzten Texten (Zeitungen). Problem: graphematische Modifikationen in (älteren) Schriftsystemen: Zuk-ker Zucker Automatischer Rückbau von Silbentrennung über Seitengrenzen hinaus erfordert gute Layouterkennung (OLR).

18 Beispiel: Tokenisiertes Französisch im Text+Berg Korpus <div> <s lang="fr" n="a13-s56"> <w xml:id="a13-s56-w1" >Il</w> <w xml:id="a13-s56-w2" >est</w> <w xml:id="a13-s56-w3" >plus</w> <w xml:id="a13-s56-w4" >simple</w> <w xml:id="a13-s56-w5" >semble</w> <w xml:id="a13-s56-w6" >-t-il</w> <w xml:id="a13-s56-w7" >de</w> <w xml:id="a13-s56-w8" >surveiller</w> <w xml:id="a13-s56-w9" >l </w> <w xml:id="a13-s56-w10" >enneigement</w> <w xml:id="a13-s56-w11" >des</w> <w xml:id="a13-s56-w12" >Alpes</w>... <w xml:id="a13-s56-w29" >.</w> </s> </div>

19 Zusammenfassung

20 Zusammenfassung Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zu lösen. Sie lässt sich für Texte mit normierter Orthographie im Allgemeinen sehr gut lösen mit bestehenden oder selbst erstellten Programmen. Aber es gibt immer Restfehler, welche in der nachgeschalteten Verarbeitung Nachfolgefehler erzeugen. Regelbasierte oder statistische Lösungen erreichen bis 99% Genauigkeit bei der Satzsegmentierung. Abkürzungslexika, welche auf die Textsorte zugeschnitten sind, stellen ein wertvolles Hilfsmittel dar. Statistische Ansätze können bei genügend grossen Korpora ohne Abkürzungslisten vergleichbare Leistung erbringen. Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeuge abgestimmt werden.

21 Vielen Dank! Dr. Simon Clematide Institut für Computerlinguistik Universität Zürich

22 Literaturangaben I Grover, C. (2008). Lt-ttt2 example pipelines documentation. Available from: Kiss, T. and Strunk, J. (2006). Unsupervised multilingual sentence boundary detection. Computational Linguistics, 32(4): Available from: Schmid, H. (2006). Treetagger. Available from: uni-stuttgart.de/projekte/corplex/treetagger/decisiontreetagger.html. Wong, D. F., Chao, L. S., and Zeng, X. (2014). isentenizer-: Multilingual sentence boundary detection model. The Scientific World Journal, 2014:10. Available from:

HS 2016: Einführung in die Computerlinguistik I

HS 2016: Einführung in die Computerlinguistik I HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftextskript

Mehr

Tokenisierer Überblick

Tokenisierer Überblick 1 1. Überblick (engl. Tokenizers) sind Programme, die Texte für die Weiterverarbeitung durch anderer Programme (z.b. Tagger, Stemmer, Lemmatisierer oder Parser) in Teilketten, sog. Token zerlegen. Was

Mehr

HS 2016: Einführung in die Computerlinguistik I

HS 2016: Einführung in die Computerlinguistik I HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftextskript

Mehr

Maschinelle Sprachverarbeitung Tokenisierung

Maschinelle Sprachverarbeitung Tokenisierung Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die

Mehr

1. Aufgaben eines Tokenizers

1. Aufgaben eines Tokenizers Lerneinheit Tokenisierung ist eine absolut notwendige Vorstufe für jede weitere computerlinguistische Verarbeitung eines Textes (u.a.: für die syntaktische Analyse). 1. Aufgaben eines Tokenizers Aufgaben

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Textnormalisierung. Uwe Reichel IPS, LMU München 4. Mai 2010

Textnormalisierung. Uwe Reichel IPS, LMU München 4. Mai 2010 Textrmalisierung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 4. Mai 2010 Inhalt Satzsegmentierung Wortrmalisierung Tokenisierung Token-Zerlegung Outputformat Inhalt 1 Satzsegmentierung

Mehr

Projektseminar "Texttechnologische Informationsmodellierung"

Projektseminar Texttechnologische Informationsmodellierung Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck

Mehr

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon

Mehr

Erstsemestrigentag 2016 Computerlinguistik (und Sprachtechnologie)

Erstsemestrigentag 2016 Computerlinguistik (und Sprachtechnologie) Erstsemestrigentag 2016 Computerlinguistik (und Sprachtechnologie) Institut für Computerlinguistik 15. September 2016 Erstsemestrigentag Computerlinguistik 15. September 2016 Institut für Computerlinguistik

Mehr

Tokenizer. Motivation. Ein einfacher Tokenizer. Zweck und Funktion eines Tokenizers. These are words. Eingabe = [these,are,words,'.'].

Tokenizer. Motivation. Ein einfacher Tokenizer. Zweck und Funktion eines Tokenizers. These are words. Eingabe = [these,are,words,'.']. Tokenizer Motivation Übersicht Was sind Tokenizer? Der Tokenizer von Covington Aufrufdiagramm Definition und Arbeitsweise der einzelnen Prädikate Programmiertechnik Look-Ahead Wort- und Satzgrenzen erkennen

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Informationsextraktionssystem ANNIE

Informationsextraktionssystem ANNIE Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 10/11 Inhalt 1 Einführung: Informationsextraktion Begriffsklärung eines Informationsextraktionssystems 2 Einführung in Getting Started

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik

Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik Dozentin: Wiebke Petersen 12. Foliensatz Wiebke Petersen Einführung CL 1 Kurzwiederholung der letzten Sitzung Dateien

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Dozentin: Wiebke Petersen 3.12.2009 Wiebke Petersen Einführung CL (WiSe 09/10) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter.

Mehr

Erstsemestrigentag 2018 Computerlinguistik und Sprachtechnologie

Erstsemestrigentag 2018 Computerlinguistik und Sprachtechnologie Erstsemestrigentag 2018 Computerlinguistik und Sprachtechnologie Institut für Computerlinguistik 13. September 2018 Erstsemestrigentag Computerlinguistik 13. September 2018 Institut für Computerlinguistik

Mehr

Anhang III: Modulhandbuch

Anhang III: Modulhandbuch Anhang III: Modulhandbuch Das Modulhandbuch wird gemäß 1 Abs. (1) der Satzung der Technischen Universität Darmstadt zur Regelung der Bekanntmachung von Satzungen der Technischen Universität Darmstadt vom

Mehr

Modul 1: Wege in die digitale Welt

Modul 1: Wege in die digitale Welt Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 1: Wege in die digitale Welt Martin Volk volk@cl.uzh.ch Themen in diesem Modul 1. Was verstehen wir unter Digital Humanities?

Mehr

Erstsemestrigentag 2017 Computerlinguistik (und Sprachtechnologie)

Erstsemestrigentag 2017 Computerlinguistik (und Sprachtechnologie) Erstsemestrigentag 2017 Computerlinguistik (und Sprachtechnologie) Institut für Computerlinguistik 14. September 2017 Erstsemestrigentag Computerlinguistik 14. September 2017 Institut für Computerlinguistik

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901

Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901 Doris Jansen-Tang Ziele und Möglichkeiten einer Reform der deutschen Orthographie seit 1901 Historische Entwicklung, Analyse und Vorschläge zur Veränderung der Duden-Norm, unter besonderer Berücksichtigung

Mehr

Zuerst wird die Bedingung ausgewertet. Ist sie erfüllt, wird der Rumpf des while-statements ausgeführt. Nach Ausführung des Rumpfs wird das gesamte

Zuerst wird die Bedingung ausgewertet. Ist sie erfüllt, wird der Rumpf des while-statements ausgeführt. Nach Ausführung des Rumpfs wird das gesamte Zuerst wird die Bedingung ausgewertet. Ist sie erfüllt, wird der Rumpf des while-statements ausgeführt. Nach Ausführung des Rumpfs wird das gesamte while-statement erneut ausgeführt. Ist die Bedingung

Mehr

Automatische Textzusammenfasung

Automatische Textzusammenfasung Automatische Textzusammenfasung Katja Diederichs Francisco Mondaca Simon Ritter PS Computerlinguistische Grundlagen I - Jürgen Hermes - WS 09/10 Uni Köln Gliederung 1) Einleitung & Überblick 2) Ansätze

Mehr

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW) Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Text+Berg digital. Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk.

Text+Berg digital. Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk. Text+Berg digital Torsten Marek Mit Unterstützung durch Adrian Althaus, Maya Bangerter, Lenz Furrer und Martin Volk. Universität Zürich Institut für Computerlinguistik 12. Juni 2009

Mehr

Tokenizer. Motivation. Zweck und Funktion eines Tokenizers. Ein einfacher Tokenizer. : These are words. [these, are, words,'.'] These are words.

Tokenizer. Motivation. Zweck und Funktion eines Tokenizers. Ein einfacher Tokenizer. : These are words. [these, are, words,'.'] These are words. Tokenizer Motivation bersicht Was sind Tokenizer? Der Tokenizer von Covington Aufrufdiagramm Definition und Arbeitsweise der einzelnen PrŠdikate Wort- und Satzgrenzen erkennen Tokenisieren von Dateien

Mehr

Sprachsynthese: Textnormalisierung

Sprachsynthese: Textnormalisierung Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung

Mehr

Maschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber

Maschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber Maschinelles Übersetzen natürlicher Sprachen 2 Praktikum SS 2012 Torsten Stüber Zielstellung Entwicklung eines einfachen Übersetzungssystems I saw her duck. Übersetzer Ich sah ihre Ente. SMT-System Statistical

Mehr

Rechtschreibung und Rechtschreibunterricht

Rechtschreibung und Rechtschreibunterricht Gerhard Augst und Mechthild Dehn Rechtschreibung und Rechtschreibunterricht Können Lehren Lernen Eine Einführung für Studierende und Lehrende aller Schulformen Ernst Klett Verlag Vorwort Vorspiel: Vom

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin

Mehr

Die Regeln der deutschen Rechtschreibung

Die Regeln der deutschen Rechtschreibung Die Regeln der deutschen Rechtschreibung Vollständig und verständlich dargeboten von Klaus Heller OLMS- WEIDMANN 1 Grundsätzliches 11 1.1 Schreibung und Lautung 11 1.2 Schreibung und Bedeutung 12 2 Die

Mehr

Informationsextraktion mit endlichen Automaten

Informationsextraktion mit endlichen Automaten Informationsextraktion mit endlichen Automaten HS: Information Retrieval Dozentin: Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Referentinnen: Galina Sigwarth,

Mehr

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Titel. Hamdiye Arslan Éva Mújdricza-Maydt

Titel. Hamdiye Arslan Éva Mújdricza-Maydt Titel Logo: http://gate.ac.uk/gatewiki/cow/doc/gslidy/gate-logo-colour.png Hamdiye Arslan Éva Mújdricza-Maydt Referat zum HS Endliche Automaten PD Dr. Karin Haenelt Seminar für Computerlinguistik Ruprecht-Karls-Universität

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Digital Humanities Recherche im DWDS und DTA

Digital Humanities Recherche im DWDS und DTA Digital Humanities Recherche im DWDS und DTA mit Booleschen Operatoren und Regulären Ausdrücken Jena Language & Information Engineering (JULIE) Lab Friedrich-Schiller-Universität Jena, Germany http://www.julielab.de

Mehr

Die deutsche Sprache

Die deutsche Sprache Die deutsche Sprache Inhalt Vorwort 5 Inhalt IZur Ein führ uns II Die neuen Schreibweisen III Die Wortschreibung III. 1 So funktioniert unsere Schrift: Buchstabe, Wort und Satz_ III. 1.1 Artikulationswechsel

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com MÜ Ansätze Zwei Dimensionen: Verarbeitungstiefe Art der verwendeten Technik Seite 2 Verarbeitunstiefe Seite

Mehr

SKOPOS Webinar 22. Mai 2018

SKOPOS Webinar 22. Mai 2018 SKOPOS Webinar 22. Mai 2018 Marktforschung 2020: Künstliche Intelligenz und automatische Text Analysen? Christopher Harms, Consultant Research & Development 2 So? Terminator Exhibition: T-800 by Dick Thomas

Mehr

Python für Linguisten

Python für Linguisten Python für Linguisten Dozentin: Wiebke Petersen & Co-Dozentin: Esther Seyarth Fortgeschrittene Zeichenkettenverarbeitung mit regulären Ausdrücken Esther Seyarth Python 1 Motivation Wir haben bereits einige

Mehr

Python für Linguisten

Python für Linguisten Python für Linguisten Dozentin: Wiebke Petersen & Valentin Heinz 8. Foliensatz Petersen & Heinz Python 1 Zielsetzung für lawstats.py Korpus: verschiedene deutsche Gesetze im XML-Format, c.a. 400 000 Token

Mehr

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Neue Erkenntnisse aus unstrukturierten Daten gewinnen Neue Erkenntnisse aus unstrukturierten Daten gewinnen Univ.-Prof. Dr. Josef Küng Institut für anwendungsorientierte Wissensverarbeitung (FAW) Johannes Kepler Universität Linz In Zusammenarbeit mit Mag.

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de

Mehr

Digital Humanities: Übung 3

Digital Humanities: Übung 3 Digital Humanities: Übung 3 Meta-Daten und Auszeichnungssprachen: XML Sven Büchel Friedrich-Schiller-Universität Jena Philosophische Fakultät Institut für Germanistische Sprachwissenschaft Lehrstuhl für

Mehr

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Wintersemester 2009/10, Prof. Dr. Udo Hahn, Erik Fäßler Übungsblatt 6 vom 10.12.2009 Abgabe bis 15.12.2009, 23:59 Uhr; per

Mehr

Inhaltsverzeichnis WORTKOMBINATIONEN... 1

Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Was leistet die Funktion Wortkombinationen? Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von

Mehr

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung

Mehr

Twitterdaten und Technisches

Twitterdaten und Technisches 3. Vorverarbeitung von Twitterdaten und Technisches Seminar Computerlinguistische Analyse von Twitterdaten Tatjana Scheffler, Universität Potsdam tatjana.scheffler@uni-potsdam.de! 24.4.2013 Heute Finalisierung

Mehr

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orellfüssli Verlag AG / Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

How to: Verwendung des Partitur-Editors mit geschriebenen Daten

How to: Verwendung des Partitur-Editors mit geschriebenen Daten How to: Verwendung des Partitur-Editors mit geschriebenen Daten Dieses Dokument erläutert die Verwendung vom EXMARaLDA Transkriptions-Editor bei der Arbeit mit geschriebenen Daten. Diese Anweisungen gelten

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

Digital Humanities: Übung 2

Digital Humanities: Übung 2 Digital Humanities: Übung 2 Reguläre Ausdrücke und Suche im DTA Sven Büchel Friedrich-Schiller-Universität Jena Philosophische Fakultät Institut für Germanistische Sprachwissenschaft Lehrstuhl für Computerlinguistik

Mehr

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik

Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orell füssli Verlag AG / PH P H Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Institut für Computerlinguistik Wie verstehen Computer Sprache?

Institut für Computerlinguistik Wie verstehen Computer Sprache? Institut für Computerlinguistik Wie verstehen Computer Sprache? Jeannette Roth, Mathias Müller 11. Juli 2017 Wir 11. Juli 2017 University of Zurich, Institut für Computerlinguistik, Roadshow, Jeannette

Mehr

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09) Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess

Mehr

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Einführung. Stefanie Dipper Stefan Evert Heike Zinsmeister Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines

Mehr

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Erkennung und Visualisierung attribuierter Phrasen in Poetiken Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung

Mehr

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen

Mehr

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close 1/19 Kern-Methoden zur Extraktion von Informationen Sebastian Marius Kirsch skirsch@moebius.inka.de 2/19 Gliederung 1. Verfahren zur Extraktion von Informationen 2. Extraktion von Beziehungen 3. Maschinelles

Mehr

LanguageTool, eine Stil- und Grammatikprüfung

LanguageTool, eine Stil- und Grammatikprüfung LanguageTool, eine Stil- und Grammatikprüfung LanguageTool, was ist das? LanguageTool, kurz LT, ist eine OpenSource-Erweiterung für LibreOffice, mit der Grammatik und Stil eines Dokumentes überprüft werden.

Mehr

Mit Formatierungszeichen arbeiten

Mit Formatierungszeichen arbeiten Mit Formatierungszeichen arbeiten Inhaltsverzeichnis Sonderzeichen Suchen und Ersetzen... 1 Das Dialogfeld Ersetzen... 1 Weitere Bereinigungen im Text... 3 Das manuelle Zeilenende... 3 Weitere Tipps zum

Mehr

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt Corpus based Identification of Text Segments Thomas Ebert Betreuer: MSc. Martin Schmitt Übersicht 1. Motivation 2. Ziel der Arbeit 3. Vorgehen 4. Probleme 5. Evaluierung 6. Erkenntnisse und offene Fragen

Mehr

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features

8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features Humboldt-Universität zu Berlin 8. Mai 2008 1 2 logistic regression 3 Benutzer 4 Fazit 5 Quellen Was ist? is a suite of Java libraries for the linguistic analysis of human. Was ist? is a suite of Java libraries

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

How to: Segmentierung

How to: Segmentierung How to: Segmentierung Dieses Dokument erläutert die Verwendung der eingebauten Segmentierungsalgorithmen der endlichen Maschinen des EXMARaLDA Partitur-Editors. Es sind keine Vorkenntnisse über Algorithmen,

Mehr

Die Klasse MiniJava ist in der Datei MiniJava.java definiert:

Die Klasse MiniJava ist in der Datei MiniJava.java definiert: Die Klasse MiniJava ist in der Datei MiniJava.java definiert: import javax.swing.joptionpane; import javax.swing.jframe; public class MiniJava { public static int read () { JFrame f = new JFrame (); String

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Linux I II III Res/Pro WN/TT Reguläre Ausdrücke Editoren Scripting. Linux II. 2 Linux II. Reguläre Ausdrücke Editoren Scripting. Ressourcen-Vorkurs

Linux I II III Res/Pro WN/TT Reguläre Ausdrücke Editoren Scripting. Linux II. 2 Linux II. Reguläre Ausdrücke Editoren Scripting. Ressourcen-Vorkurs Linux II 2 Linux II Reguläre Ausdrücke Editoren Scripting POSIX POSIX POSIX ist ein UNIX-Standard, der bestimmte grundlegende Funktionen und Eigenschaften von UNIX-Systemen definiert. Dazu gehören auch

Mehr

Inhalt und Überblick. Visuelle Kognition Adrian Schwaninger Universität Zürich. Erkennung und Repräsentation Ansichtenbasierte Ansatze Überblick

Inhalt und Überblick. Visuelle Kognition Adrian Schwaninger Universität Zürich. Erkennung und Repräsentation Ansichtenbasierte Ansatze Überblick Einleitung Visuelle Kognition Adrian Schwaninger Universität Zürich Inhalt und Überblick Repräsentation, Erkennung, Kategorisierung Traditioneller Ansatz Strukturelle Beschreibungen Ansichtenbasierte Modelle

Mehr

Studienfach Linguistische Informatik. 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS

Studienfach Linguistische Informatik. 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS 2 Lehrveranstaltungen VL Grundlagen der Computerlinguistik 1 (2 SWS) UE Grundlagen der Computerlinguistik 1 (2 SWS) UE Arbeitstechniken der

Mehr

Computer, Fehler, Orthographie. Tobias Thelen Institut für Kognitionswissenschaft Universität Osnabrück

Computer, Fehler, Orthographie. Tobias Thelen Institut für Kognitionswissenschaft Universität Osnabrück Computer, Fehler, Orthographie Tobias Thelen Institut für Kognitionswissenschaft Universität Osnabrück Übersicht Unterstützung von Kooperation durch das Internet Maschinenlesbare Korpora Aufbereitung und

Mehr

Sprachsynthesesysteme

Sprachsynthesesysteme Sprachsynthesesysteme Computerlinguistik WS 09/10 07.01.2010 Lisa Orszullok Kim Weßels Anika Stallmann Übersicht Aufgaben der Anwendung Linguistische Schwierigkeiten Linguistische Ebenen Aktueller Stand

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was

Mehr

Worthäufigkeiten - Worthäufigkeiten analysieren

Worthäufigkeiten - Worthäufigkeiten analysieren Worthäufigkeiten - Worthäufigkeiten analysieren Inhaltsverzeichnis WORTHÄUFIGKEITEN - WORTHÄUFIGKEITEN ANALYSIEREN... 1 Worthäufigkeiten - Worthäufigkeiten analysieren Die einfachste Funktion von MAXDictio

Mehr

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: ) Modulhandbuch für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester 2013 (Version: 2013-06-26) 1 Modulübersicht V=Vorlesung, Ü=Übung, S=Seminar, P=Praktikum Semester Modulnr. Titel der

Mehr

TreeTagger. Deborah Watty

TreeTagger. Deborah Watty TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.

Mehr

Tutorial: Automatische Textannotation mit WebLicht

Tutorial: Automatische Textannotation mit WebLicht Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung...

Mehr

Zerlegung von Webuser-Kommentaren

Zerlegung von Webuser-Kommentaren Zerlegung von Webuser-Kommentaren Simon Rüppel Lehrstuhl für heoretische Informationstechnik 20.02.2013 1. Motivation Ziel: Part of Speech (POS) - agging für Social Media exte -> Jedem Wort (oken) eine

Mehr

Automatische Prüfung von Wikipedia-Artikeln

Automatische Prüfung von Wikipedia-Artikeln Automatische Prüfung von Wikipedia-Artikeln WikiCon 2013 23.11.2013 Daniel Naber Überblick Worum geht es hier (nicht)? Fehlerbeispiele Überblick LanguageTool LanguageTool Funktionsprinzip Fehlermuster

Mehr

Linguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister

Linguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister Linguistische Aufbereitung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.01.2011 Linguistische Aufbereitung Es war einmal eine kleine Hexe, die war erst einhundertsiebenundzwanzig Jahre alt,

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation Yupeng Guo 1 Agenda Introduction RNN Encoder-Decoder - Recurrent Neural Networks - RNN Encoder Decoder - Hidden

Mehr

Seminar Informationsvisualisierung

Seminar Informationsvisualisierung Seminar Informationsvisualisierung Thema: Seminar Dozent: Dr. Dirk Zeckzer zeckzer@informatik.uni-leipzig.de Sprechstunde: nach Vereinbarung Umfang: 2 Prüfungsfach: Modul Fortgeschrittene Computergrafik

Mehr

Brauchen wir neue Wörter?Neologismen als Problem und Aufgabe von Lexikographie und Computerlinguistik p.1

Brauchen wir neue Wörter?Neologismen als Problem und Aufgabe von Lexikographie und Computerlinguistik p.1 Brauchen wir neue Wörter? Neologismen als Problem und Aufgabe von Lexikographie und Computerlinguistik Lothar Lemnitzer lothar@sfs.uni-tuebingen.de Münster, 12. November 2004 Brauchen wir neue Wörter?Neologismen

Mehr

Entwicklung einer Anwendung zur Erkennung von Täuschungsversuchen

Entwicklung einer Anwendung zur Erkennung von Täuschungsversuchen Entwicklung einer Anwendung zur Erkennung von Täuschungsversuchen Theoretische Ausarbeitung Miriam Friedrich Matr.-Nr.: 3062857 1. Prüfer: Prof. Dr. rer. nat. Alexander Voß 2. Prüfer: Bastian Küppers,

Mehr

Das Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko

Das Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007 Informationsextraktion Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren

Mehr