Maschinelle Sprachverarbeitung Tokenisierung
|
|
- Nicolas Frank
- vor 6 Jahren
- Abrufe
Transkript
1 Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008
2 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen
3 Begriffe Token Token sind die Baussteine, aus denen Texte bestehen: Wörter im klassischen Sinn: der, Sonne, drei,.. Abkürzungen: HdM, Dr., BLZ,... Zahlzeichen: 42, 7., 2 n, 0711,... Satzzeichen:., ; :!?... Sonstiges: DINa4, (i), }, MeCR3R2((CH2CR3R2)t),... Tokenisierung (auch Segmentierung) Vorgang, bei dem die rohe Sequenz von Zeichen eines Textes in Sätze und diese wiederum in Wörter bzw. Token geteilt wird.
4 Motivation: Anwendungen Korrekturprogramme Finden und Korrigieren von Fehlern in Texten Wortabgleich Informationsextraktion Füllen von Templates Kopieren von relevanten Wörtern Textklassifikation Zuordnung von Texten zu definierten Klassen Klassenzugehörigkeit aufgrund des Wortinventars
5 Die Bäume im Wald finden... oder die Wörter im Text Ein Text Dr. House ist eine Serie über den Arzt Dr. Gregory House. Für den Rechner: Der Text als (ASCII-)String Gewünschte Zerlegung Dr. House ist eine Serie über den Arzt Dr. Gregory House.
6 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen
7 Zerlegung in Token Ein einfacher Tokenisierer Um die Token einer Sequenz zu identifizieren, interpretiert man die Leerstellen als Übergänge zwischen Token und trennt die Satzzeichen von den Token ab. Anwendung auf das Korpus Dr. House ist eine Serie über den Arzt Dr. Gregory House. Problem Zusätzlich zum Satzpunkt wurden auch die Abkürzungspunkte abgetrennt.
8 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen
9 Herausforderungen an die Zerlegung Schreibweise von Zahlen Abkürzungen Großschreibung Satzgrenzen Bindestriche Leerstellen Klitika
10 Schreibweise von Zahlen ihre Struktur ist relativ eindeutig aber je nach Sprache unterschiedlich festgelegt Sprachspezfische Regelung Englisch: 123, Französisch: ,78 Deutsch: ,78 (Geldbeträge: 3.456,78) (Quelle: wikipedia.de)
11 Abkürzungen (1) Kürzungen Tilgung am Wortanfang oder -ende Professor Prof Abkürzungen Folge von Lauten, die den Buchstaben entsprechen Arbeitsbeschaffungsmaßnahme ABM Akronyme Bildung eines neuen phonetischen Worts Deutsche Industrienorm DIN (Meibauer et al. 2007: 33)
12 Abkürzungen (2) Endlose Menge Abkürzungen sind keine geschlossene Klasse. Man kann daher nicht einfach alle möglichen Abkürzungen auflisten.
13 Großschreibung Im Englischen sind großgeschriebene Wörter normalerweise Eigennamen, man findet sie aber auch als erstes Wort im Satz als Teil eines Titels nach einem Strichpunkt oder öffnendem Anführungsstrich Frage Großgeschriebene Wörter können ambig sein continental vs. Continental (Englisch). Wie ist es im Deutschen?
14 Satzgrenzen Satzgrenzen sind normalerweise durch einen Satzpunkt, Ausrufezeichen oder ein Fragezeichen markiert Andere Funktionen des Punkts: Dezimalpunkt im Englischen Tausenderpunkt bei Geldbeträgen im Deutschen Teil einer Abkürzung Satzendezeichen und gleichzeitig Teil einer Abkürzung Beispiele (1) Anna went home late. Her father was angry. (2) Anna came back from the U. S. A. last month. (3) Anna came back from the U. S. A. She enjoyed it. (4) Anna came back from the U. S. A. Continental...
15 Bindestriche (1) Gegeben sei folgende Situation...xy... Mögliche Strings x-y Re-gierung de-facto-regierung Hin- und Rückflug
16 Bindestriche (2) Disambiguierungsaufgabe des Tokenisierers: String xy: Worttrennung Trennung um die Textbreite im Originalformal einzuhalten. aufge-baut, Re-gierung,... Sollten bei der Tokenisierung wieder (ohne Bindestrich) zusammengefügt werden (Dehyphenation). String x-y: Bindestrichkomposita de-facto-regierung, 35mm-Film,... String x- y: trunkiertes Wort Hin- (und Rückflug), be- (und entladen),...
17 Leerstellen Bisherige Annahme Token enthalten keine Leerstellen. Problem Mehrwortausdrücke enthalten Leerstellen. Repräsentieren Sie ein oder mehrere Token? Beispiele de facto Daimler Chrysler AG 1. Feb. 2004
18 Klitika Huckepack Klitika verbinden sich mit einem anderen Wort zu einem Token, meist ohne trennende Leerstelle. Beispiele Englisch: Französisch: Deutsch: Spanisch: Italienisch: isn t we ll Permettez-vous? Stimmt s? garantizarles applicarlo
19 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen
20 Tokenisierung Was ist ein Wort? Entfernen von Leerzeichen (whitespace) Leerzeichen, Tabulator, Umbruch Markieren von Trennungsstrichen am Zeilenende Trennen von Alternativen und/oder 1998/99 Erkennung und Markierung von Satzzeichen Punkt, Komma, Semikolon, Fragezeichen usw. Zusammenführen von Wortteilen erst-malig, (Fehler bei Bindestrichkomposita am Zeilenende) (Grefenstette & Tapanainen 1994)
21 Disambiguierungsmethoden Heuristiken und Informationsquellen Wörterbuchinformation Abkürzungslisten (manuell/automatisch) Satzposition, usw. Heuristische Ansätze Bestimme Heuristiken über die Zugehörigkeit von einem Token und einer Menge von Klassen Definiere die Heuristiken als Regeln und ordne sie nach ihrer Zuverlässigkeit Klassifikationansätze (überwacht/unüberwacht): Entscheidungsbäume, Neuronale Netze, Maximum Entropy, usw.
22 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen
23 Zusammenfassung Wichtigste Problemkategorien Normalisierung von großgeschriebenen Wörtern Erkennen von Abkürzungen (u.ä.) Disambiguierung von Satzgrenzen
24 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die Zerlegung 4 Tokenisierungsalgorithmus 5 Zusammenfassung 6 Referenzen
25 Referenzen (1) Daniel Jurafsky and James H. Martin (2000) Speech and Language Processing: an introduction to natural language processing, computational linguistics, and speech recognition. Kapitel: 2.1.,2.2 Sabine Schulte im Walde (2006): Tokenisation and Morpho-Syntactic Annotation. Slides of the course Introduction to Corpus Resources, Annotation and Access (zusammen mit Heike Zinsmeister) 18th European Summer School in Logic, Language and Information, Malaga, Spain. Gregory Grefenstette and Pasi Tapanainen (1994): What is a word, what is a sentence? Problems of tokenization. In Proceedings of the 3rd Conference on Computational Lexicography and Text Research, S Budapest, Hungary.
26 Referenzen (2) Andrei Mikheev (2002): Periods, Capitalized Words, etc. Computational Linguistics, 28(3): Andrei Mikheev (2003): Text segmentation. In: Ruslan Mitkov, editor: The Oxford Handbook of Computational Linguistics, S Oxford University Press. Helmut Schmid (im Druck): Tokenizing. In: Anke Lüdeling and Merja Kytö, editors: Corpus Linguistics. An International Handbook. Mouton de Gruyter, Berlin, im Erscheinen.
Maschinelle Sprachverarbeitung: Tokenisierung
Maschinelle Sprachverarbeitung: Tokenisierung BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER Gertrud Faaβ Universität StuPgart, InsRtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 StuPgart 0711
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrModul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =
MehrGliederung. Informationsextraktion Materialien zur Vorlesung. Entwicklung eines regex für Firmennamen. Entwicklung eines regex für Firmennamen
Gliederung Informationsextraktion Materialien zur Vorlesung Beispiel: reguläre Ausdrücke für Firmennamen 1 D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke
MehrSprachsynthese: Textnormalisierung
Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung
MehrSeminarprojekt und Europarl / Markup / Segmentierung. Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10
Seminarprojekt und Europarl / Markup / Segmentierung Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10 Leitfaden Heterogenes Sitzungs-Programm Seminarprojekt Europarl-Korpus Exkurs: Statistische Maschinelle
MehrEinführung in PERL 2 Reguläre Ausdrücke
Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrInformationsextraktion Materialien zur Vorlesung
Informationsextraktion Materialien zur Vorlesung Beispiel: reguläre Ausdrücke für Firmennamen D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität
MehrTokenisierer Überblick
1 1. Überblick (engl. Tokenizers) sind Programme, die Texte für die Weiterverarbeitung durch anderer Programme (z.b. Tagger, Stemmer, Lemmatisierer oder Parser) in Teilketten, sog. Token zerlegen. Was
MehrDie Regeln der deutschen Rechtschreibung
Die Regeln der deutschen Rechtschreibung Vollständig und verständlich dargeboten von Klaus Heller OLMS- WEIDMANN 1 Grundsätzliches 11 1.1 Schreibung und Lautung 11 1.2 Schreibung und Bedeutung 12 2 Die
MehrTokenizer. Motivation. Ein einfacher Tokenizer. Zweck und Funktion eines Tokenizers. These are words. Eingabe = [these,are,words,'.'].
Tokenizer Motivation Übersicht Was sind Tokenizer? Der Tokenizer von Covington Aufrufdiagramm Definition und Arbeitsweise der einzelnen Prädikate Programmiertechnik Look-Ahead Wort- und Satzgrenzen erkennen
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrMaschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)
basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript
MehrDer Erwerb und die Verarbeitung der Laute bilingualer Sprecher
Der Erwerb und die Verarbeitung der Laute bilingualer Sprecher Referat von Angelika Giglberger am 22.05.2007 Hauptseminar Spracherwerb SS 2007 Prof. Dr. Jonathan Harrington Der Erwerb und die Verarbeitung
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrDie deutsche Sprache
Die deutsche Sprache Inhalt Vorwort 5 Inhalt IZur Ein führ uns II Die neuen Schreibweisen III Die Wortschreibung III. 1 So funktioniert unsere Schrift: Buchstabe, Wort und Satz_ III. 1.1 Artikulationswechsel
MehrRechtschreibdidaktik WS 2006
Rechtschreibdidaktik WS 2006 Duden-Regelwerk z. B. 112 Stoffprogression Jg. 3-10 Methoden Aufgaben 23.09.2012 Dr.J. Schulze-Bergmann 1 Rechtschreibdidaktik WS 2006 Die Einführung in den das Buchstabeninventar,
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrDistributed Algorithms. Image and Video Processing
Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben
MehrÜberblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen:
MehrReguläre Ausdrücke. Karin Haenelt
Reguläre Ausdrücke Karin Haenelt 25.04.2010 1 Inhalt Einführung Definitionen Kleene-Theorem Schreibweisen regulärer Ausdrücke Eigenschaften regulärer Sprachen 2 Was sind reguläre Ausdrücke? Reguläre Ausdrücke
MehrEuroparl-Korpus. Leitfaden. Seminarprojekt. Seminarprojekt. Europarl-Korpus. Seminarprojekt und Europarl / Markup / Segmentierung
Leitfaden Seminarprojekt und Europarl / Markup / Segmentierung Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10 Heterogenes Sitzungs-Programm Seminarprojekt Europarl-Korpus Exkurs: Statistische Maschinelle
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrZerlegung von Webuser-Kommentaren
Zerlegung von Webuser-Kommentaren Simon Rüppel Lehrstuhl für heoretische Informationstechnik 20.02.2013 1. Motivation Ziel: Part of Speech (POS) - agging für Social Media exte -> Jedem Wort (oken) eine
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrTagging von Online-Blogs
Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt
MehrPersonalpronomen und das Verb to be
Personalpronomen und das Verb to be Das kann ich hier üben! Das kann ich jetzt! Was Personalpronomen sind und wie man sie verwendet Wie das Verb to be gebildet wird Die Lang- und Kurzformen von to be Verneinung
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrXML als Beschreibungssprache syntaktisch annotierter Korpora
Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören
MehrÜbungsblatt zum Vergleich des simple past und present perfect
Übungsblatt zum Vergleich des simple past und present perfect I. Markiere die Signalwörter des simple past in Grün und die des present perfect in Gelb! two years ago just never already so far in 1981 for
MehrKorpuslinguistik IDS-Korpora und COSMAS II
Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche
MehrNeue Rechtschreibung
Neue Rechtschreibung Sie finden hier eine Zusammenfassung der Regeln, durch die es nach der Rechtschreibreform vom 1. August 2006 zu Neuschreibungen kommt. Änderungen betreffen die Bereiche Getrennt- und
MehrVisualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten
Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten Arbeitspapier Zusammenfassung In diesem Arbeitspapier wird gezeigt, wie mit Hilfe der Google- Books Ngram Daten
MehrTnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
MehrFormatierungsregeln Deutschland / Frankreich
Formatierungsregeln Deutschland / Frankreich Sprachen unterscheiden sich nicht nur in ihren Worten, sondern auch in ihren typographischen Regeln. Daran, ob jemand diese unterschiedlichen Regeln beherrscht,
MehrÜbersicht. Einführung in Perl Datenstrukturen I. Datentypen Übersicht (1) Kernbegriffe. Kernbegriffe. Einführung der Datentypen.
Übersicht Kernbegriffe Einführung der Datentypen Skalare im Detail Vergleichsoperatoren Standardeingabe chomp-operator while-schleife Perl, 24.10.03 Datentypen I 1 Datentypen Übersicht (1) Datentyp Erklärung
MehrSeit Einführung der neuen Rechtschreibregeln am 1. August 1998 ist die Verwendung von ss und ß eindeutig geregelt:
Typische Rechtschreibprobleme von Ingenieuren Seite 1 1 Einleitung Die folgenden Seiten zeigen typische Fehler auf, die in Schriftdokumenten von Ingenieuren und Ingenieurstudenten zu finden sind. Die Aufzählung
MehrComputerlinguistik Dozent: Dr. Jürgen Hermes Sprachsynthese. Referenten: Oliver Hummel und Carolin Schneider
Computerlinguistik Dozent: Dr. Jürgen Hermes Sprachsynthese Referenten: Oliver Hummel und Carolin Schneider Überblick 1. Einführung 2. Geschichte der Sprachsynthese 3. Text to Speech System 1. Sprachverarbeitung
MehrINFORMATIONSEXTRAKTION
INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.
MehrParsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.
Gliederung Natürlichsprachliche Systeme I D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 WS 2011/12, 26. Oktober 2011, c 2010-2012
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrHausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010
Universität zu Köln Institut für Linguistik Abteilung Sprachliche Informationsverarbeitung Hausarbeit Seminar: Computerlinguistik II Dozent: Jürgen Hermes M.A. Sommersemester 2010 Thema: Part-of-Speech
MehrFachbeiträge. und System. Syntaxbasierte Satzgenerierung mit PLNLP. 1 PLNLP - Programmiersprache. Zusammenfassung
Fachbeiträge Syntaxbasierte Satzgenerierung mit PLNLP ANDREA BEURER Zusammenfassung In der Programmiersprache PLNLP (wird "Penelope" ausgesprochen und steht für Programming Language for Natural Language
MehrMaschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber
Maschinelles Übersetzen natürlicher Sprachen 2 Praktikum SS 2012 Torsten Stüber Zielstellung Entwicklung eines einfachen Übersetzungssystems I saw her duck. Übersetzer Ich sah ihre Ente. SMT-System Statistical
MehrDer Geschäftsbrief. Gestaltung von Schriftstücken nach DIN 5008, DIN 5009 u.a. 5., überarbeitete Auflage 2013
DIN Karl Grün Der Geschäftsbrief Gestaltung von Schriftstücken nach DIN 5008, DIN 5009 u.a. 5., überarbeitete Auflage 2013 Herausgeber: DIN Deutsches Institut für Normung e.v. Beuth Verlag GmbH Berlin
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Rechtschreibstrategien Klasse, Band II
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Rechtschreibstrategien - 7.-10. Klasse, Band II Das komplette Material finden Sie hier: School-Scout.de Gerd Stuckert Rechtschreibstrategien
MehrKontraktionen von Präposition und bestimmtem Artikel. Maria Cieschinger NLK07,
Kontraktionen von Präposition und bestimmtem Artikel Maria Cieschinger (mcieschi@uos.de) NLK07, 08.03.2007 Übersicht Das Problem einige Einschränkungen einige Beispiele Meine Lösung der generalisierende
MehrÜber den Autor 7. Einführung 19
Inhaltsverzeichnis Inhaltsverzeichnis Über den Autor 7 Einführung 19 Wie Sie dieses Buch verwenden können 19 Wie dieses Buch aufgebaut ist 20 Teil I: Was heißt hier eigentlich richtig schreiben? 20 Teil
MehrVoraussetzungen. Anmeldung. Hilfe & Support
Voraussetzungen Für die Nutzung des Redaktionssystems benötigen Sie lediglich eine Internetverbindung sowie einen aktuellen Browser. Wir empfehlen Ihnen dafür Mozilla Firefox ab Version 2 bzw. Microsoft
MehrThomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik
Thomas Lindauer Claudia Schmellentin Studienbuch Rechtschreibdidaktik Die wichtigen Regeln im Unterricht orell füssli Verlag AG / PH P H Vorwort 9 TeilA Regelorientierter Rechtschreibunterricht 11 1 Nachsprech-,
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Rechtschreibstrategien Klasse, Band II
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Rechtschreibstrategien - 5.-6. Klasse, Band II Das komplette Material finden Sie hier: School-Scout.de Gerd Stuckert Rechtschreibstrategien
MehrInformationsextraktion
Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrDUDEN. Die Neuregelung der deutschen Rechtschreibung. Regeln, Kommentar und Verzeichnis wichtiger Neuschreibungen. von Peter Gallmann und Horst Sitta
DUDEN Die Neuregelung der deutschen Rechtschreibung Regeln, Kommentar und Verzeichnis wichtiger Neuschreibungen von Peter Gallmann und Horst Sitta DUDENVERLAG Mannheim Leipzig Wien Zürich Inhaltsverzeichnis
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrDuden. Rechtschreibung und Grammatik. Bearbeitet von der Dudenredaktion. Dudenverlag. Mannheim Zürich
Duden Rechtschreibung und Grammatik Bearbeitet von der Dudenredaktion Dudenverlag Mannheim Zürich Inhalt RECHTSCHREIBUNG Die Laut-Buchstaben-Zuordnungen Grundlagen Die Wiedergabe der Kurzvokale (Schärfung)
MehrInformationsextraktion. Peter Kolb
Informationsextraktion Peter Kolb 5.7.2007 Informationsextraktion Ziel: aus unstrukturierten Daten (Texten) Wissen extrahieren Entitäten Relationen zwischen Entitäten Ereignisse (events), Szenarios wer
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrCoRS-O-Mat. Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten
CoRS-O-Mat Eine freie, webbasierte Anwendungssoftware für linguistische Forschungsdaten Ziele Bereitstellung der Forschungsdaten des Projekts CoRS zur Nachnutzung Computergestützte Weiterführung des Projekts
MehrWhere are we now? The administration building M 3. Voransicht
Let me show you around 9 von 26 Where are we now? The administration building M 3 12 von 26 Let me show you around Presenting your company 2 I M 5 Prepositions of place and movement There are many prepositions
MehrAnalyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann
Analyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann Institut für Informationssysteme Technische Universität Braunschweig Example: Main Tower Main
MehrSOA verspielt - rekursive BPEL Prozesse
SOA verspielt - rekursive BPEL Prozesse Guido Neander MT AG Ratingen Schlüsselworte SOA, BPEL, rekursive Programmierung, Development, Deployment Einleitung Bei komplexen Problemstellungen (z. B. Aufgaben
MehrRegel 1: Wie kann ich einen Besitz ausdrücken?
Regel 1: Wie kann ich einen Besitz ausdrücken? - mein Auto, dein Haus, unser Klassenraum besitzanzeigender Begleiter (= Possessive Pronoun) - Lisas Familie, Thomas Freund, Bernds Zimmer Wessen-Fall (Genitiv-S)
MehrIntroduction to Computational Linguistics
Introduction to Computational Linguistics PD Dr. Frank Richter fr@sfs.uni-tuebingen.de. Seminar für Sprachwissenschaft Eberhard-Karls-Universität Tübingen Germany NLP Intro WS 2005/6 p.1 Incremental Linguistic
MehrMaschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1
Maschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1 Basierend auf Kapitel 4 P.M. Nugues (2006) Gertrud Faaβ Universität StuVgart, InsXtut für maschinelle Sprachverarbeitung Azenbergstr. 12,
MehrInhalt. Groß- und Kleinschreibung Vokale und Konsonanten Vorwort
Inhalt Vorwort Groß- und Kleinschreibung... 1 1 Nomen... 2 Nomen... 2 Zusammengesetzte Nomen... 3 Typische Nomenendungen... 4 Artikel als Nomenbegleiter... 6 Weitere Nomenbegleiter... 8 2 Nominalisierung
MehrEinstieg in die Informatik mit Java
1 / 17 Einstieg in die Informatik mit Java String Tokenizer Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 17 1 Überblick Tokenizer 2 StringTokenizer 3 Verwendung von String.split
MehrRechtschreibung kompakt. Die wichtigsten Regeln zum Ausdrucken (DIN A 4) entnommen aus dem. Web-based Training Deutsche Rechtschreibung
Rechtschreibung kompakt Die wichtigsten Regeln zum Ausdrucken (DIN A 4) entnommen aus dem Web-based Training Deutsche Rechtschreibung Diese Zusammenstellung aus den Lektionen soll Ihnen helfen, die erlernten
MehrRechtschreibung und Rechtschreibunterricht
Gerhard Augst und Mechthild Dehn Rechtschreibung und Rechtschreibunterricht Können Lehren Lernen Eine Einführung für Studierende und Lehrende aller Schulformen Ernst Klett Verlag Vorwort Vorspiel: Vom
MehrData Mining Künstliche Neuronale Netze vs. Entscheidungsbäume
Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume Grundseminar HAW Master Informatik 18.04.2017 Inhaltsübersicht Data Mining & Begriffswelt des Data Mining Klassifikation & Klassifikatoren
Mehr4 cm 1 mm 3 cm 6 mm 7 cm 2 mm 9 cm 9 mm
44 Zentimeter und Millimeter Miss die Strecken. Gib die Länge in zwei Schreibweisen an. 0 9 5 6 cm mm = mm 4 cm mm = mm cm mm = mm 7 06 94 57 cm mm = mm Zeichne die Strecken. 7 cm 8 mm cm mm 5 cm 5 mm
MehrErstellen und Verwalten von Karteikarten für imcards am iphone / ipod touch
IMCARDSPC Erstellen und Verwalten von Karteikarten für imcards am iphone / ipod touch You 2 Software E-Mail: info@you2.de Homepage: http://www.you2.de You 2 Software 2010 imcardspc Handbuch 1-9 Haupt-Fenster
MehrComplex Event Processing
[10] Armin Steudte HAW Hamburg Masterstudiengang Informatik - WS 2011/2012 Agenda Motivation Grundlagen Event Processing Networks Ausblick Quellen 2 Agenda Motivation Grundlagen Event Processing Networks
MehrDigitaltechnik I WS 2006/2007. Klaus Kasper
Digitaltechnik I WS 2006/2007 Klaus Kasper Studium 6 Semester 5. Semester: Praxissemester im Anschluss: Bachelorarbeit 6. Semester: WPs Evaluation der Lehre Mentorensystem 2 Organisation des Studiums Selbständigkeit
MehrPart-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09
Part-of-Speech Tagging Machine Language Processing Heike Zinsmeister WS 2008/09 Motivation Part of Speech = Wortart Tokenisierung Zerlegung einer Sprache in Wörter Lexikon Wortinventar einer Sprache Anzahl
Mehrdenn sonst kann man gleich mit der Schreibmaschine schreiben
denn sonst kann man gleich mit der Schreibmaschine schreiben Seitenlayout 3 1,5 DIN A4 Hochformat einseitig bedruckt Seitenränder in cm: siehe rechts Seitenzahl: Abstand der Kopfzeile von oben:
MehrInwiefern zeigen die Monophthong Vokalverschiebungen in Neuseeland Englisch Evidenzen von 'chain shifting'?
Inwiefern zeigen die Monophthong Vokalverschiebungen in Neuseeland Englisch Evidenzen von 'chain shifting'? Jonathan Harrington: "Die phonetischen Grundlagen des Lautwandels Referent: Matthias Mahrhofer
Mehr1 Kopiervorlagen. KV 2 a: Hello. KV 2 b: What s the number? Greenwich. mouse. school. name. one. how. . My. Hello. I m a. . Thomas Tallis is my new
KV 2 a: Hello. Write in English. Hello. I m a mouse. My name is Tom. I m from Greenwich. Thomas Tallis is my new school. I m one and how old are you? My mobile number is 0 77 40 91 54 62. KV 2 b: What
MehrDer Brieftext 1. - 2 - Am Fußende kann man am rechten Rand durch drei Punkte darauf hinweisen, dass noch Seiten folgen...
Der Brieftext 1 1. Die Textformatierung 1.1 Schrift und Schriftgröße Im fortlaufenden Text sollte man auf ungewöhnliche Schriftarten (wie Schreibschrift und Schriftstile (Gravur, Kapitälchen o.ä.) verzichten.
MehrStudienfach Linguistische Informatik. 1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS
1 Modulbezeichnung Grundlagen der Computerlinguistik I 7,5 ECTS 2 Lehrveranstaltungen VL Grundlagen der Computerlinguistik 1 (2 SWS) UE Grundlagen der Computerlinguistik 1 (2 SWS) UE Arbeitstechniken der
MehrAnnotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrEinstieg in die Informatik mit Java
1 / 22 Einstieg in die Informatik mit Java Formatierte Ausgabe Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 22 1 Überblick 2 Nachteile von println 3 Formatierte Ausgabe
MehrSchritt für Schritt Reguläre Ausdrücke verstehen. Einstieg in. Reguläre Ausdrücke. Michael Fitzgerald O REILLY. Übersetzung von Thomas Demmig
Schritt für Schritt Reguläre Ausdrücke verstehen Einstieg in Reguläre Ausdrücke O REILLY Michael Fitzgerald Übersetzung von Thomas Demmig Inhalt Vorwort.... 1 Was ist ein regulärer Ausdruck?... 1 Ein Anfang
MehrTextkodierung mit XML
Textkodierung mit XML Summer School Digitale Edition 2017 Christiane Fritze #ideschool17 Überblick XML-Grundlagen: Was ist XML und wie geht das? Das XML-Dokument und seine Regeln XML schreiben - erste
MehrI am. ich bin. you are. du bist. he is she is it is. er ist sie ist es ist. we are. wir sind. you are. ihr seid. they are.
Regel 1: Alle Formen von be a) Das Verb be heißt sein. Hier sind alle Formen: English: German: I am you are he is she is it is we are you are they are ich bin du bist er ist sie ist es ist wir sind ihr
MehrNatürliche Sprache Ambiguität: syntaktisch. Natürliche Sprache Ambiguität: lexikalisch-semantisch. Natürliche Sprache Ambiguität: syntaktisch
Ambiguität: lexikalisch-semantisch Homografie, Polysemie Konstanz liegt am Bodensee. Bei Konstanz des Luftdrucks... I saw that gasoline can explode [Ich sah diesen Benzinbehälter explodieren] [Ich sah,
MehrEin bisschen Werbung. Einführung in die Morphologie Einleitung, Grundbegriffe I. Morphologie. 'Morphologie' Was ist ein Wort? Was ist ein Wort?
Ein bisschen Werbung Einführung in die Morphologie Einleitung, Grundbegriffe I Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 "Morphology is the conceptual centre of linguistics. This
MehrReferat zum Thema: Exemplartheorien
Thema: Speech Perception without Speaker Normalization An Exemplar Model Ein Paper von Keith Johnson (1997) Thema: Speech Perception without Speaker Normalization An Exemplar Model Ein Paper von Keith
Mehr2 Sprechen Die SchülerInnen können
Klasse Kompetenzfelder Kompetenzen 2 Sprechen über ein Thema sprechen, eine eigene Meinung äußern und so demokratische Verhaltensweisen einüben erste Gesprächsregeln beachten kurze Sprüche, Verse und Gedichte
MehrGroß- und Kleinschreibung
Vorwort 15 Deutsch 2. Klasse Groß- und Kleinschreibung Satzanfänge und Namen 16 Namenwörter 17 Tunwörter 18 Wiewörter 20 Selbstlaute Selbstlaute 21 Aus a wird ä 22 Umlaute 23 Wörter mit au und äu 24 W
MehrVariablen in MATLAB. Unterschiede zur Mathematik: Symbolisches und numerisches Rechnen. Skriptdateien. for-schleifen.
Variablen in MATLAB. Unterschiede zur Mathematik: Symbolisches und numerisches Rechnen. Skriptdateien. for-schleifen. Wir wollen uns heute dem Thema Variablen widmen und uns damit beschäftigen, wie sich
Mehr