1. Aufgaben eines Tokenizers
|
|
- Elsa Huber
- vor 6 Jahren
- Abrufe
Transkript
1 Lerneinheit Tokenisierung ist eine absolut notwendige Vorstufe für jede weitere computerlinguistische Verarbeitung eines Textes (u.a.: für die syntaktische Analyse). 1. Aufgaben eines Tokenizers Aufgaben eines Tokenizers Folgende Aufgaben können unterschieden werden: A. Bereinigung der Eingabekette von nicht-relevanten Zeichen (z.b. HTML- Markup) B. Aufteilung der Eingabekette in einzelne Einheiten (Token) als Voraussetzung für die syntaktische Analyse. Token sind nicht nur sprachliche Wortformen, sondern auch Zahlen und Satzzeichen sowie komplexere Einheiten (Abkürzungen etc.). C. Satzendeerkennung D. Wortnormalisierung Aufgabe A lässt sich auch in eine eigene Phase der Aufbereitung bzw. Bereinigung eines Textes vorverlagern, die nicht zur eigentlichen Tokenisierung gehört. Das ist Auffassungssache. Aufgabe B umfasst den Kern der Tokenisierung mit dem Zerlegen in Token. Aufgabe C ist ebenfalls zentral, aber notorisch schwierig. Satzendeerkennung wird daher nicht selten auch erst nach dem POS-Tagging und dem Chunking durchgeführt/vollendet. Aufgabe D ist optional und kann als eigene Phase nach der Tokenisierung und vor dem Tagging stattfinden. Sie lässt sich aber im Rahmen der Zerlegungsphase sinnvoll bewältigen. Resultat Das Resultat der Tokenisierung ist eine Liste von Tokens, z.b. als Liste im technischen Sinn 1, oder als Abfolge von durch Zeilenumbrüche getrennten Tokens (sog. vertikalisierter Text ) 2 Auf die zweite beschriebene Weise kann jedem Token 1. Z.B. wenn man Prolog verwendet. 2. Dies, wenn man Skriptsprachen wie Perl verwendet, die Text in Text überführen.
2 2 weitere relevante Information (z.b. über die Zugehörigkeit zu einer Tokenklasse, s.u.) angehängt werden. 2. Funktionsweise eines Tokenizers Grundlegendes Die grundlegende Vorgehensweise bei der Tokenisierung besteht in der Zerlegung der Eingabekette an bestimmten Zeichen. Oft werden einzelne Tokens hierzu jeweils auf eine Zeile geschrieben. Grundsätzlich müssen dafür white space characters durch Token-trenner (im zweitgenannten Fall also durch newlines ) ersetzt und Interpunktions, Satz- und Sonderzeichen (!?., ( ) "etc.) abgetrennt/isoliert werden. Die Behandlung spezieller Fälle kann entweder durch Isolieren 3 erfolgen (dann wirken die Trennungsprinzipien nicht) oder durch Re- Gruppieren getrennter Elemente (wir werden die erste Option wählen). 2.1 Textbereinigung Zur Textbereinigung sind im wesentlichen die folgenden Aufgaben zu zählen: Entfernen von Markup (z.b. HTML-Marker etc.) De-Hyphenation: Das Entfernen von Trennungsstrichen (d.h., das Zusammenfügen getrennter Wörter) Das Entfernen von Markup ist allerdings nicht immer angemessen. Soll ein Text im Hinblick auf seine Struktur analysiert werden, kann es sehr wohl sinnvoll sein, diese Information zu erhalten. In diesem Fall müssen die jeweiligen Tags als Token isoliert werden. Die Entfernung von Trennungsstrichen ist nicht trivial: Befindet sich ein zum Wort gehöriger Bindestrich zufällig am Ende einer Zeile, so kann aus einer end-of-file- Markierung leicht eine end-offile-markierung werden. Um dies zu vermeiden, kann man ein Lexikon-lookup häufiger Bindestrich enthaltender Wörter einem allgemeinen Verfahren vorschalten. Um Textund Bildverarbeitung auszuschliessen, 3. Isolieren heisst Schützen (z.b. ++Wort--) und Trennen.
3 3 muss man ausserdem koordinierte Konstruktionen erkennen und unberücksichtigt lassen. 2.2 Zerlegen des Textes Bei der Zerlegung eines Textes müssen folgende Dinge geleistet werden: 1. an den white space characters trennen 2. kontrahierte Wörter trennen (z.b. hat s) und die verkürzte Form isolieren. 3. komplexe Tokens (d.h. solche, die einen Blank enthalten), erkennen und isolieren Beispiele hierfür sind Zahlen ( ), Geldbetragsbezeichnungen ( Euro), Telefonnummern (0155) ), ordinale Ausdrücke (13. Jahrestagung)o.ä. Auch Mehr-Wort-Einheiten (en passant, im Folgenden, on line usw.), die mithilfe eines Lexikons erfasst werden können, gehören zu den hier relevanten Tokentypen. 4. Abkürzungen, Auslassungspunkte (... ) etc. erkennen und isolieren 5. Abtrennung der Interpunktionen und sonstiger Satz-/Sonderzeichen durchführen
4 4 2.3 Wortnormalisierung Die Wortnormalisierung dient vor allem dazu, in der (späteren) Phase des part-ofspeech-tagging die Erkennung der Wortart sicherzustellen. Hierfür ist es ggf. nötig, produktive Konstruktionen wie Zahlwörter auf eine einheitliche Repräsentationsform abzubilden (da sonst prinzipiell unendlich viele entsprechende Lexikoneinträge vorhanden sein müssten) in verschiedenen Formen vorkommende Wörter zu vereinheitlichen (U.S.A. USA) verkürzte Formen zu expandieren ( s es) in verschiedenen Ausprägungen erscheinende Angaben (z.b. Datumsangaben) zu vereinheitlichen 2.4 Satzendeerkennung eigentlich eine Abartigkeit der Typographen Bei der Abtrennung der Interpunktionszeichen stellt die Behandlung des Punktes aufgrund seiner Ambiguität zwischen Satzende-Kennzeichner und Abkürzungspunkt das augenfälligste Problem dar: Erstens ist es nicht-trivial, eine Abkürzung als solche zu erkennen und zweitens übernimmt der Punkt nicht selten doppelte Funktion (statt etc.. am Satzende nur etc. ). Würden die Interpunktionszeichen generell zuerst abgetrennt, müssten Abkürzungspunkte explizit wieder aufgrund bestimmter Prinzipien angefügt werden (übrig blieben per default die Satzendepunkte). Eine einfache Heuristik für eine solche Erkennung von Satzendepunkten ist die folgende: Heuristik für Satzendeerkennung Trenne Punkte nicht ab, wenn sie unmittelbar einem alfanumerisches Zeichen vorangehen (wie in URLs oder Zeitangaben (22.08)) wenn sie direkt auf eine bekannte Abkürzung folgen (wie in Dr. oder etc.) wenn ihnen ein Kleinbuchstabe oder ein Satzzeichen folgt (wie in abgegeb., oder Friedr. von).
5 5 Ansonsten trenne sie ab. Hiermit werden allerdings Punkte in Ordinalzahlen (1. Schweizer Kongress) nicht erfasst und auch die Satzendeerkennung nicht zufriedenstellend behandelt. Die oben vorgestellte Option, zunächst eine Menge verschiedener Ausdrücke zu erkennen, hat z.b. für das Erkennen von Abkürzungen den weiteren Vorteil, dass eine entsprechende Abkürzungsliste verwendet werden kann (wofür intervenierende newlines eher hinderlich sind). Die Satzendeerkennung lässt sich ausserdem verbessern, wenn das Lexikon verwendet wird: Folgt auf einen Punkt ein Wort in Grossschreibung, das im Lexikon nicht als Nomen vorkommt, so liegt sehr wahrscheinlich ein Satzende vor. Heuristik für Satzendeerkennung nach erfolgter Erkennung von Abkürzungen Disambiguierung des Abkürzungspunktes In diesem Fall kann die folgende Heuristik angenommen werden: Trenne Punkte nicht ab, wenn ihnen ein Kleinbuchstabe oder ein Satzzeichen folgt (wie in abgegeb., oder Friedr. von) und isoliere das Token als bislang nicht erkannte Abkürzung. Füge einen Satzendepunkt hinzu, wenn auf eine Abkürzung ein Wort in Grossschreibung folgt, das im Lexikon nicht als Nomen vorkommt Ansonsten trenne sie ab. Diese Heuristik leidet nur noch unter der notorischen Unvollständigkeit von Listen (in diesem Fall von der Abkürzungsliste). Schliesslich bietet sich eine statistisch basierte Behandlung dieser Aufgaben an, die zunächst Information über mögliche Abkürzungen, Satzanfänge, Wörter vor und hinter Zahlen und Endungen von Wörtern (s. z.b. Berghangstr.) anhand grosser Korpora analysiert und diese dann auf konkrete Texte anwendet.
6 6 3. Entscheidungen beim Design eines Tokenizers Kontraktionen: Sollen Zeichenketten wie gibt s in zwei Token getrennt oder als eines belassen werden (die Frage stellt sich insbesondere im Englischen mit dem häufigen Auftreten von I ve, can t usw.)? Linguistisch gesehen sind zwei Token angemessen, da es sich um eine Kontraktion handelt. Verallgemeinert führt dies allerdings zu einem Problem: trennt man im Französischen das l ab (z.b. von l addition), so stellt es für das nachfolgende Tagging eine ambige Form dar (Artikel oder Pronomen); im Englischen besteht eine ähnliche Ambiguität für s zwischen Genitivendung und Kontraktion (das ist zum Glück nicht im Deutschen der Fall). Üblicherweise wird jedoch eine Trennung in zwei Token durch den Tokenizer vorgenommen. Tokenklassen: Nicht alle Token sind Wörter im engeren Sinne. Da die Tokenisierung sowieso eine intensivere Analyse der Eingabekette erfordert, lohnt es sich, deren Ergebnis als Klassifizierung der Token anhand von Tokenklassen festzuhalten. Dies kann vor allem die Verarbeitung in nachfolgenden Modulen vereinfachen. Mögliche Kandidaten sind ABK für Abkürzungen, ZEIToderERGEBNIS z.b. für 12:15, NCOMPLEX für F18-Pilot, COM für cp. Die Vielzahl komplexer Token ist ein weiteres Argument für die Einführung von Tokenklassen.
7 7 3.1 Sequenzierung der Aufgaben im Tokenizer Die Reihenfolge, in der die verschiedenen Einzelschritte zur Tokenisierung vorgenommen werden, ist entscheidend für den Erfolg. Bitte versuchen Sie, dies anhand der folgenden P-Demo zu ermitteln. Es ist kein vollständiger Tokeniser, aber sie könnten damit folgende Dinge ausprobieren: Dabei sind v.a. folgende Aspekte zu beachten: Mögliche Testwerte, welche zu interessanten Beobachtungen führen, sind Bitte beschreiben Sie Ihre Beobachtungen hier. Das folgende ggf. als Antwort auf den SET: Eine mögliche und sinnvolle konkrete Reihenfolge der Operationen eines Tokenizers ist wie folgt: 1. Bereinigung des Textes 2. Erkennen und Isolieren von Abkürzungen und komplexen Ausdrücken, Wortnormalisierung
8 8 Konkretes Vorgehen 1. Lexikon-basiert 2. Algorithmus-basiert (u.a. Satz(-NICHT)-zu-Ende-Erkennung!) 3. Zerlegung Zerlegung an white space characters Trennung kontrahierter Wörter Abtrennung der Interpunktionen und sonstiger Satz-/Sonderzeichen 4. Beseitigen von Markierungen, die zum Schützen eingefügt wurden Auf diese Weise bleiben wortinterne Sonderzeichen per default erhalten (vgl. AT&T usw.). Gleichzeitig kann hier Wortnormalisierung stattfinden, deren Ergebnisse ebenfalls isoliert werden. Dann findet die Abtrennung der Interpunktions- und Sonderzeichen statt, bei der im wesentlichen noch die Satzendeerkennung zu leisten ist. 4. Probleme Bislang existiert noch kein optimaler Algorithmus für die Tokenisierung. Neben den bereits genannten Problemen (sichere Satzendeerkennung, Behandlung der Ambiguität von Kontraktionen) bereiten die folgenden Aspekte notorische Schwierigkeiten: Erkennung und Unterscheidung von einfachen und doppelten Anführungszeichen und Apostroph Erkennung eingebetteter Sätze (z.b. Dies ist ein eingebetteter Satz) Entscheidung über die Komplexität von Token: Aus wievielen Token besteht Euro 300,-? Können z.b. runde Klammern Teil eines Tokens sein (s. Kohlendioxid(CO2)-Problematik)?
9 Vorverarbeitung Erkenntnis: der textuellen Einheiten: Tokenisierung Tokenisierung ist das Zerlegen einer Eingabekette in Einheiten, die die weitere computerlinguistische 9 Verarbeitung ermöglichen bzw. erleichtern, z.b. indem diesen Einheiten eine Wortart (partof-speech) zugewiesen werden kann. einfache Rekonstruktion Im Deutschen gibt es noch ein besonders unangenehmes (aber häufig vorkommendes) Problem: Auslassungen wie z.b. Ein- und Ausgang. Dies sind elliptische Konstruktionen, und einer brauchbarer Tokeniser für das Deutsche muss die vollständigen Formen rekonstruieren, wobei aber oft mehrere Rekonstruktionen denkbar sind: 1. Ein- und Aus gang Eingang und Ausgang Informations beschaffung und -verarbeitung alternierende Rekonstruktion 2. Text zugriff- und -verwaltungs systeme Textzugriffsysteme und Textverwaltungssysteme ambige Auslassungen 3. Anschaffungs- und Unterhalts kostenbilanz? Anschaffungs- und Unterhaltskosten bilanz * Anschaffungs- und Unter haltskostenbilanz 1. Das erste ist gut, weil eine der Zerlegung der Expansionen ist (Unterhaltskosten)bilanz), und ((Anschaffungskosten)bilanz) und ( Anschaffungskosten wie Unterhaltskosten sind ± feste Fachtermini, und erst noch parallel gebildete. 2. Das zweite ist nicht gut, weil Anschaffungsbilanz und Unterhaltskostenbilanz weder selbst Fachtermini sind noch sich in solche zerlegen lassen. 3. Das dritte ist ausgeschlossen, weil Anschaffungshaltskostenbilanz morphologisch nicht wohlgeformt ist.
10 10 5. Demos 5.1 Tokenizing II (L-Demos)[onl] Im folgenden finden sie zwei implementierte Tokenizer. Sie unterscheiden sich v.a. in folgenden Belangen: Covingtons Tokenizer oder Toni Arnolds Tokenizer ausprobieren! Ende der Lerneinheit Michael Hess 2002
11 Michael Hess 2002
Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrInhaltsverzeichnis WORTKOMBINATIONEN... 1
Wortkombinationen Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Was leistet die Funktion Wortkombinationen? Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von
MehrSprachsynthese: Textnormalisierung
Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung
MehrModul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrLateinische Morphologie: Anleitung
Im Folgenden geht es darum, eine knappe Anleitung für die morphologische Analyse einiger einfacher lateinischer Sätze zu geben. Diese folgt den Schritten, die in der ersten Einführung in die Arbeitsweise
MehrTokenisierer Überblick
1 1. Überblick (engl. Tokenizers) sind Programme, die Texte für die Weiterverarbeitung durch anderer Programme (z.b. Tagger, Stemmer, Lemmatisierer oder Parser) in Teilketten, sog. Token zerlegen. Was
MehrÜbung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie
Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Wintersemester 2009/10, Prof. Dr. Udo Hahn, Erik Fäßler Übungsblatt 6 vom 10.12.2009 Abgabe bis 15.12.2009, 23:59 Uhr; per
MehrPython für Linguisten
Python für Linguisten Dozentin: Wiebke Petersen & Co-Dozentin: Esther Seyarth Fortgeschrittene Zeichenkettenverarbeitung mit regulären Ausdrücken Esther Seyarth Python 1 Motivation Wir haben bereits einige
MehrMit Formatierungszeichen arbeiten
Mit Formatierungszeichen arbeiten Inhaltsverzeichnis Sonderzeichen Suchen und Ersetzen... 1 Das Dialogfeld Ersetzen... 1 Weitere Bereinigungen im Text... 3 Das manuelle Zeilenende... 3 Weitere Tipps zum
MehrGrundlegende Laut-Buchstaben-Regeln bzw. -Beziehungen: Für den Laut [a] schreibt man a bzw. A etc. Für die Lautverbindung [ks] schreibt man x.
1. Klasse Grundlegende -Regeln bzw. -Beziehungen: Für den Laut [a] schreibt man a bzw. A etc. 2. Klasse x -Schreibung sp - und st -Schreibung Weitere -Regeln Grossschreibung der Namen Grossschreibung am
MehrWorthäufigkeiten - Worthäufigkeiten analysieren
Worthäufigkeiten - Worthäufigkeiten analysieren Inhaltsverzeichnis WORTHÄUFIGKEITEN - WORTHÄUFIGKEITEN ANALYSIEREN... 1 Worthäufigkeiten - Worthäufigkeiten analysieren Die einfachste Funktion von MAXDictio
MehrMaschinelle Sprachverarbeitung Tokenisierung
Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die
MehrCLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik
CLab Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT Chunk Parsing Universität Zürich Institut für Computerlinguistik Prof. Dr. Michael Hess 1. Voraussetzungen 2 Sie sollten wissen,
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrDie deutsche Sprache
Die deutsche Sprache Inhalt Vorwort 5 Inhalt IZur Ein führ uns II Die neuen Schreibweisen III Die Wortschreibung III. 1 So funktioniert unsere Schrift: Buchstabe, Wort und Satz_ III. 1.1 Artikulationswechsel
MehrEigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW
Eigennamenerkennung mit großen lexikalischen Ressourcen Jörg Didakowski BBAW Was sind Eigennamen? Sprachliche Zeichen (Eigennamen) das Bezeichnete (Named Entity) Was sind Eigennamen? Eigennamen bezeichnen
MehrAnnotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrHarry gefangen in der Zeit Begleitmaterialien
Folge 015 Grammatik 1. Ordinalzahlen Mit Ordinalzahlen kann man eine Reihenfolge festlegen. Die Ordinalzahl gibt die Position eines Elements in der Reihe an. Zum Beispiel bilden die Tage eines Monats eine
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrThemen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf Ludgerusschule ) 1. Wichtige Fähigkeiten und Kenntnisse im Rechtschreiben
FACHBEREICH: DEUTSCH RECHTSCHREIBUNTERRICHT BESCHLUSS WEITERE HINWEISE: Kollegium der Ludgerusschule 24.02.2015 KONZEPTE UND VEREINBARUNGEN Themen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf
MehrVergleiche und Transformationen für XML-Dokumente - Teil 2. Ein Ansatz zur hierarchischen, adaptiven Kollationierung
Vergleiche und Transformationen für XML-Dokumente - Teil 2 Ein Ansatz zur hierarchischen, adaptiven Kollationierung Varianz in der Gleichheit nicht nur der Manuskripte, sondern auch ihrer Teile die Elemente
MehrORTHOGRAFIE. Design Manual
ORTHOGRAFIE Design Manual Februar 2016 Einleitung Orthografie Das Erste richtet sich in nahezu allen Belangen der Schreibweise nach der vom amtlichen Regelwerk zugelassenen sogenannten Agentur-Rechtschreibung
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrMultiplikation langer Zahlen
Multiplikation langer Zahlen Aljoscha Rudawski 20.5.2017 Inhaltsverzeichnis 1 Einleitung 1 2 Multiplikation nach Lehrbuch 1 2.1 Addition langer Zahlen............................. 2 2.2 Multiplikation
MehrDie Regeln der deutschen Rechtschreibung
Die Regeln der deutschen Rechtschreibung Vollständig und verständlich dargeboten von Klaus Heller OLMS- WEIDMANN 1 Grundsätzliches 11 1.1 Schreibung und Lautung 11 1.2 Schreibung und Bedeutung 12 2 Die
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrPartielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation
Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation Martin Scholz martin.scholz@i8.informatik.uni-erlangen.de 05.02.2009 Inhalt Anwendungsfall: Goldschmiede-Texte
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrWDG Analyse und Transformation (WAT)
WDG Analyse und Transformation (WAT) Studienprojekt von Ineta Sejane und Wiebke Wagner am Institut für Deutsche Sprache Mannheim WDG Das Wörterbuch zur deutschen Grammatik WDG enthält ca. 150 000 Lemmata.
Mehr[wird Ihnen von Administrator/in oder Moderator/in zugewiesen]
Allgemeines Adresse Benutzername Passwort Bildformat Bildgrösse IHREDOMAIN/galerie [wird Ihnen von Administrator/in oder Moderator/in zugewiesen] [wird Ihnen von Administrator/in oder Moderator/in zugewiesen]
MehrAnhang. 1) Rechtschreibregeln in der Volksschule. 1) Rechtschreibregeln in der Volksschule 2) Rechtschreibregeln auf der Sekundarstufe II
Anhang 1) Rechtschreibregeln in der Volksschule 2) Rechtschreibregeln auf der Sekundarstufe II 1) Rechtschreibregeln in der Volksschule Die kantonalen Lehrpläne stimmen im Fach Deutsch weitgehend überein.
MehrLFG-basierter Transfer
Inhaltsverzeichnis 1 2 2 Ein Beispiel 4 3 Strukturaufbau 7 4 Alternative Übersetzungen 8 5 Adjunkte 9 6 Kodeskription 10 http://www.ims.uni-stuttgart.de/ gojunaa/mue_tut.html 1 1 Um einen quellsprachlichen
MehrDigital Humanities Recherche im DWDS und DTA
Digital Humanities Recherche im DWDS und DTA mit Booleschen Operatoren und Regulären Ausdrücken Jena Language & Information Engineering (JULIE) Lab Friedrich-Schiller-Universität Jena, Germany http://www.julielab.de
MehrIntonation in der Sprachsynthese
Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 1. Dezember 2010 Das MARY TTS-System TTS: Text-to-Speech MARY: Modular Architecture
MehrFinite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
Mehr1 Lineare Gleichungssysteme und Matrizen
1 Lineare Gleichungssysteme und Matrizen Das Studium linearer Gleichungssysteme und ihrer Lösungen ist eines der wichtigsten Themen der linearen Algebra. Wir werden zunächst einige grundlegende Begriffe
MehrKomma, Punkt und alle anderen Satzzeichen
Komma, Punkt und alle anderen Satzzeichen Alle Regeln der Zeichensetzung übersichtlich dargestellt Einfache Faustregeln und Tipps für knifflige Fälle Praxisnahe Beispiele Häufig gestellte n zum Doppelpunkt
MehrUE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 2. Spezifikation Schrittweise Verfeinerung
UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 2 Spezifikation Schrittweise Verfeinerung Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger Straße 69,
Mehr03 XML Grundlagen. Manuel Burghardt Lehrstuhl für Medieninformatik
Markupsprachen 03 XML Grundlagen Manuel Burghardt Warum XML? Nachteile von SGML und HTML SGML ist für die meisten Aufgaben zu komplex, und dadurch nicht sofort einsetzbar (komplexe Metasprache) HTML ist
MehrLÖSUNGEN ZU AUFGABE (41)
DGB 40 Universität Athen, WiSe 2012-13 Winfried Lechner Handout #3 LÖSUNGEN ZU AUFGABE (41) 1. WIEDERHOLUNG: PARAPHRASEN, SITUATIONEN UND AMBIGUITÄT Ein Satz Σ ist ambig, wenn Σ mehr als eine Bedeutung
MehrUnterschiede in Dateien mit diff
Unterschiede in Dateien mit diff diff datei1 datei2 vergleicht die Inhalte der beiden Dateien zeilenweise (bei Verzeichnissen die enthaltenen Dateien) und gibt die sich unterscheidenen Zeilen auf stdout
MehrDas diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen
Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 16OH21005 gefördert. Die Verantwortung für den Inhalt dieser
MehrNamed Entity Recognition auf Basis von Wortlisten
Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -
Mehr1 AVL-Bäume. 1.1 Aufgabentyp. 1.2 Überblick. 1.3 Grundidee
AVL-Bäume. Aufgabentyp Fügen Sie in einen anfangs leeren AVL Baum die folgenden Schlüssel ein:... Wenden Sie hierbei konsequent den Einfüge /Balancierungsalgorithmus an und dokumentieren Sie die ausgeführten
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrKorpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrTextfunktionen. Die Tabellenfunktion LINKS. Zellinhalte extrahieren
Kapitel 5 201 Die sind dann sehr wertvoll, wenn Sie Texte in Tabellen bearbeiten oder anpassen möchten. Oft müssen vor allem Daten, die aus Fremdsystemen kommen, in Excel umgewandelt und in eine besser
MehrModell Bahn Verwaltung. Tutorial. Links. Min. Programm Version 0.65, März w w w. r f n e t. c h 1 / 11
Modell Bahn Verwaltung Tutorial Links Min. Programm Version 0.65, März 2015 Tutorial Version 04.01.2017 rfnet Software w w w. r f n e t. c h 1 / 11 Vorwort... 3 1 Links... 4 1.1 Einführung... 4 1.2 Link
MehrDas Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko
Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007 Informationsextraktion Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren
MehrSchriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009
Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009 Typen von n Alphabete Lateinische Schrift Griechische Schrift Kyrillische Schrift Konsonantenschriften
MehrEinführung in die Informatik Turing Machines
Einführung in die Informatik Turing Machines Eine abstrakte Maschine zur Präzisierung des Algorithmenbegriffs Wolfram Burgard Cyrill Stachniss 1/14 Motivation und Einleitung Bisher haben wir verschiedene
MehrAlgorithmus: Kochrezept
Algorithmus: Kochrezept Ziel: Menü mit drei Gängen für 4 Personen Grundlegende Spezifikation: 1. Vorspeise: Badische Flädlesuppe 2. Hauptgericht: Überbackene Schinkenröllchen mit Spargel 3. Dessert: Vanilleeis
MehrEinführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik
Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik Dozentin: Wiebke Petersen 12. Foliensatz Wiebke Petersen Einführung CL 1 Kurzwiederholung der letzten Sitzung Dateien
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrGrundlagen der Programmentwurfstechnik Fundamentals of Software Engineering 1
Vorlesung 9 Fundamentals of Software Engineering 1 Inhaltsverzeichnis 1. Einführung 2. Allgemeine Modellbildung 3. Strukturierte Analyse 4. Strukturierter Entwurf (SE) 4.1 Aufbau der Modellierungsphasen
MehrÜbersicht PERL. !!!! Wichtig: Nach dem Befehl einem Strichpunkt setzen!!!!
!!!! Wichtig: Nach dem Befehl einem Strichpunkt setzen!!!! Erste Zeile eines PERL-Scripts: #! /usr/bin/perl Variablen in PERL: Normale Variablen beginnen mit einem $-Zeichen Array-Variablen beginnen mit
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrEinstieg in die Informatik mit Java
1 / 17 Einstieg in die Informatik mit Java String Tokenizer Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 17 1 Überblick Tokenizer 2 StringTokenizer 3 Verwendung von String.split
Mehr5 Benutzungsoberfläche
5 Mit Ausnahme der in Kapitel 4.1 beschriebenen ÜNs wurde das Verfahren zur Transformation von Hauptansprüchen als JAVA-Anwendung implementiert. Die Anwendung, genannt ClaimTransformer, umfasst zusätzlich
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrDUDEN. Die Neuregelung der deutschen Rechtschreibung. Regeln, Kommentar und Verzeichnis wichtiger Neuschreibungen. von Peter Gallmann und Horst Sitta
DUDEN Die Neuregelung der deutschen Rechtschreibung Regeln, Kommentar und Verzeichnis wichtiger Neuschreibungen von Peter Gallmann und Horst Sitta DUDENVERLAG Mannheim Leipzig Wien Zürich Inhaltsverzeichnis
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrGedächtnis. Extern gewonnene Informationen werden in drei Stufen verarbeitet:
Gedächtnis Gedächtnis Extern gewonnene Informationen werden in drei Stufen verarbeitet: Aufnahme in das Arbeitsgedächtnis ( Kurzzeitgedächtnis ) Abgleich mit langfristig gespeicherten Strukturen Integration
MehrProseminar UNIX Tools. Ferdinand Beyer
Reguläre Ausdrücke Proseminar UNIX Tools Ferdinand Beyer Technische Universität München 08.11.2005 Ferdinand Beyer (TUM) Reguläre Ausdrücke 08.11.2005 1 / 39 Gliederung Allgemeines 1 Allgemeines 2 Notation
MehrPRIMZAHLEN PATRICK WEGENER
PRIMZAHLEN PATRICK WEGENER 1. Einführung: Was sind Primzahlen? Eine ganze Zahl p, welche größer als 1 ist, heißt Primzahl, wenn sie nur durch 1 und sich selbst teilbar ist. Mit teilbar meinen wir hier
MehrVerzerrung bei räumlichen Urteilen. 16. November 2010
Verzerrung bei räumlichen Urteilen Teil 1 16. November 2010 Repräsentationen (Wissens-) Repräsentation Wissen: Speicherung, Integration und Organisation von Informationen im Gedächtnis Repräsentation:
MehrZerlegung von Webuser-Kommentaren
Zerlegung von Webuser-Kommentaren Simon Rüppel Lehrstuhl für heoretische Informationstechnik 20.02.2013 1. Motivation Ziel: Part of Speech (POS) - agging für Social Media exte -> Jedem Wort (oken) eine
MehrSprachlehr- & Sprachlernsysteme
Sprachlehr- & Sprachlernsysteme Tutorielle & Toolartige Systeme Einführung in die Computerlinguistik WS 04/05 Dozentin: Wiebke Petersen Referentin: Maria Ruhnke Tutorielle Systeme lernen durch Instruktion,
MehrSyntax - Das Berechnen syntaktischer Strukturen beim menschlichen Sprachverstehen (Fortsetzung)
Syntax - Das Berechnen syntaktischer Strukturen beim menschlichen Sprachverstehen (Fortsetzung) Markus Bader 9. Februar 2004 Inhaltsverzeichnis 4 Übertragung ins e 1 4.3 Bewegung und Satztyp................................
MehrLinux II. Reguläre Ausdrücke Editoren Scripting. 2 Linux II. Linux I II III Res WN/TT NLTK XML Weka E Reguläre Ausdrücke Editoren Scripting
Linux II 2 Linux II Reguläre Ausdrücke Editoren Scripting Reguläre Ausdrücke Reguläre Ausdrücke beschreiben eine Menge von Zeichenfolgen und werden benutzt um m festzustellen, ob eine Zeichenkette Teil
MehrLexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?
Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen
MehrCorporate design corporate wording
4663/AB XXV. GP - Anfragebeantwortung - Anlage 1 von 6 Corporate design corporate wording Grundsätzliche Informationen Überarbeitete Version 27. August 2010 1 2 von 6 4663/AB XXV. GP - Anfragebeantwortung
MehrEinführung in die Informatik: Programmierung und Software-Entwicklung, WS 12/13. Kapitel 3. Grunddatentypen, Ausdrücke und Variable
1 Kapitel 3 Grunddatentypen, Ausdrücke und Variable 2 Eine Datenstruktur besteht aus Grunddatentypen in Java einer Menge von Daten (Werten) charakteristischen Operationen Datenstrukturen werden mit einem
MehrLexical Recognition in Sign Language: Effects of Phonetic Structure and Morphology
Lexical Recognition in Sign Language: Effects of Phonetic Structure and Morphology Der Text befasst sich mit der phonetischen und morphologischen Struktur der American Sign Language ( ASL). ASL ist die
MehrKombinatorische Optimierung
Juniorprof. Dr. Henning Meyerhenke 1 Henning Meyerhenke: KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Vorlesung 4 Programm des
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrHinweise für das Maschinenschreiben und die Facharbeit neu 11/2009
Hinweise für das Maschinenschreiben und die Facharbeit neu 11/2009 Die folgenden Hinweise beschränken sich auf die in der Praxis am häufigsten auftretenden Probleme. (Vgl. auch die Richtlinien für den
MehrU. Rausch, 2010 Potenzrechnung 1
U. Rausch, 2010 Potenzrechnung 1 Potenzrechnung 1 Schreibweise und Potenzrechenregeln Unter einer Potenz versteht man ein Symbol der Form a x, gesprochen a hoch x, wobei a und x (reelle) Zahlen sind. Dabei
MehrMathematische Grundlagen der Computerlinguistik Wahrscheinlichkeit
Mathematische Grundlagen der Computerlinguistik Wahrscheinlichkeit Dozentin: Wiebke Petersen 8. Foliensatz Wiebke Petersen math. Grundlagen 1 Motivation Bsp.: In vielen Bereichen der CL kommt Wahrscheinlichkeitstheorie
MehrLinux I II III Res/Pro WN/TT Reguläre Ausdrücke Editoren Scripting. Linux II. 2 Linux II. Reguläre Ausdrücke Editoren Scripting. Ressourcen-Vorkurs
Linux II 2 Linux II Reguläre Ausdrücke Editoren Scripting POSIX POSIX POSIX ist ein UNIX-Standard, der bestimmte grundlegende Funktionen und Eigenschaften von UNIX-Systemen definiert. Dazu gehören auch
MehrRDA-Einführung. Verknüpfung zur fortlaufenden Ressource
Feld 4180 Unterfeld $l: Verknüpfung zur fortlaufenden Ressource Zählung in Vorlageform Präzisierungen zur Erfassung von Zählungen und deren r sowie Erfassung von Erscheinungsjahren bei fortlaufenden Ressourcen
MehrStemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus
MehrLR(1) Itemmengenkonstruktion
LR(1) Itemmengenkonstruktion Grammatik: S A$ xb A aab B B x Sprache: {xb} {anxbn n 0} nicht LL(1) x FIRST(B) x FIRST(A) also: FIRST/FIRST Konflikt bei S A$ xb nicht SLR(1) (Abb. 2.96) betrachte Item B
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe
MehrHS: Korpuslinguistische Behandlung von Phänomenen des Deutschen
HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei
MehrXML Extensible Markup Language
XML light XML Extensible Markup Language Jörn Clausen joern@techfak.uni-bielefeld.de Übersicht Woher? Wohin? Warum? Bestandteile von XML XML-Dokumente erstellen und bearbeiten XML light XML Extensible
MehrHandreichungen Aufgaben für zu Hause 4. Schuljahr
Handreichungen Aufgaben für zu Hause 4. Schuljahr Liebe Eltern, in der Liebfrauenschule wurden die Hausaufgaben durch Lernzeiten ersetzt. Wir finden es dennoch weiterhin wichtig, dass Sie zu Hause mit
MehrQualität der Formulierung: Missverständliche Formulierungen erkennen und vermeiden. Martin Jung 26/
Qualität der Formulierung: Missverständliche Formulierungen erkennen und vermeiden Martin Jung 26/27.04.2001 Zusammengesetzte Wörter Bei zusammengesetzten Wörtern ist die Bedeutungsrelation, in der die
MehrKopiervorlagen. Rechtschreibung und Wortkunde. Schülerduden. Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10.
Kopiervorlagen Schülerduden Rechtschreibung und Wortkunde Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10. Klasse Für den Deutschunterricht an Gymnasium, Realschule und
MehrDie Erarbeitung der Laute/Buchstaben bezieht sich immer auf das Schreiben und Lesen.
Year Schüler täglich außerschulisch fünf Minuten laut lesen üben. Es wird empfohlen, die im Unterricht erarbeiteten Texte als Grundlage zu verwenden. Alle Übungsformen und -spiele, die im Laufe der einzelnen
Mehr