1. Aufgaben eines Tokenizers

Größe: px
Ab Seite anzeigen:

Download "1. Aufgaben eines Tokenizers"

Transkript

1 Lerneinheit Tokenisierung ist eine absolut notwendige Vorstufe für jede weitere computerlinguistische Verarbeitung eines Textes (u.a.: für die syntaktische Analyse). 1. Aufgaben eines Tokenizers Aufgaben eines Tokenizers Folgende Aufgaben können unterschieden werden: A. Bereinigung der Eingabekette von nicht-relevanten Zeichen (z.b. HTML- Markup) B. Aufteilung der Eingabekette in einzelne Einheiten (Token) als Voraussetzung für die syntaktische Analyse. Token sind nicht nur sprachliche Wortformen, sondern auch Zahlen und Satzzeichen sowie komplexere Einheiten (Abkürzungen etc.). C. Satzendeerkennung D. Wortnormalisierung Aufgabe A lässt sich auch in eine eigene Phase der Aufbereitung bzw. Bereinigung eines Textes vorverlagern, die nicht zur eigentlichen Tokenisierung gehört. Das ist Auffassungssache. Aufgabe B umfasst den Kern der Tokenisierung mit dem Zerlegen in Token. Aufgabe C ist ebenfalls zentral, aber notorisch schwierig. Satzendeerkennung wird daher nicht selten auch erst nach dem POS-Tagging und dem Chunking durchgeführt/vollendet. Aufgabe D ist optional und kann als eigene Phase nach der Tokenisierung und vor dem Tagging stattfinden. Sie lässt sich aber im Rahmen der Zerlegungsphase sinnvoll bewältigen. Resultat Das Resultat der Tokenisierung ist eine Liste von Tokens, z.b. als Liste im technischen Sinn 1, oder als Abfolge von durch Zeilenumbrüche getrennten Tokens (sog. vertikalisierter Text ) 2 Auf die zweite beschriebene Weise kann jedem Token 1. Z.B. wenn man Prolog verwendet. 2. Dies, wenn man Skriptsprachen wie Perl verwendet, die Text in Text überführen.

2 2 weitere relevante Information (z.b. über die Zugehörigkeit zu einer Tokenklasse, s.u.) angehängt werden. 2. Funktionsweise eines Tokenizers Grundlegendes Die grundlegende Vorgehensweise bei der Tokenisierung besteht in der Zerlegung der Eingabekette an bestimmten Zeichen. Oft werden einzelne Tokens hierzu jeweils auf eine Zeile geschrieben. Grundsätzlich müssen dafür white space characters durch Token-trenner (im zweitgenannten Fall also durch newlines ) ersetzt und Interpunktions, Satz- und Sonderzeichen (!?., ( ) "etc.) abgetrennt/isoliert werden. Die Behandlung spezieller Fälle kann entweder durch Isolieren 3 erfolgen (dann wirken die Trennungsprinzipien nicht) oder durch Re- Gruppieren getrennter Elemente (wir werden die erste Option wählen). 2.1 Textbereinigung Zur Textbereinigung sind im wesentlichen die folgenden Aufgaben zu zählen: Entfernen von Markup (z.b. HTML-Marker etc.) De-Hyphenation: Das Entfernen von Trennungsstrichen (d.h., das Zusammenfügen getrennter Wörter) Das Entfernen von Markup ist allerdings nicht immer angemessen. Soll ein Text im Hinblick auf seine Struktur analysiert werden, kann es sehr wohl sinnvoll sein, diese Information zu erhalten. In diesem Fall müssen die jeweiligen Tags als Token isoliert werden. Die Entfernung von Trennungsstrichen ist nicht trivial: Befindet sich ein zum Wort gehöriger Bindestrich zufällig am Ende einer Zeile, so kann aus einer end-of-file- Markierung leicht eine end-offile-markierung werden. Um dies zu vermeiden, kann man ein Lexikon-lookup häufiger Bindestrich enthaltender Wörter einem allgemeinen Verfahren vorschalten. Um Textund Bildverarbeitung auszuschliessen, 3. Isolieren heisst Schützen (z.b. ++Wort--) und Trennen.

3 3 muss man ausserdem koordinierte Konstruktionen erkennen und unberücksichtigt lassen. 2.2 Zerlegen des Textes Bei der Zerlegung eines Textes müssen folgende Dinge geleistet werden: 1. an den white space characters trennen 2. kontrahierte Wörter trennen (z.b. hat s) und die verkürzte Form isolieren. 3. komplexe Tokens (d.h. solche, die einen Blank enthalten), erkennen und isolieren Beispiele hierfür sind Zahlen ( ), Geldbetragsbezeichnungen ( Euro), Telefonnummern (0155) ), ordinale Ausdrücke (13. Jahrestagung)o.ä. Auch Mehr-Wort-Einheiten (en passant, im Folgenden, on line usw.), die mithilfe eines Lexikons erfasst werden können, gehören zu den hier relevanten Tokentypen. 4. Abkürzungen, Auslassungspunkte (... ) etc. erkennen und isolieren 5. Abtrennung der Interpunktionen und sonstiger Satz-/Sonderzeichen durchführen

4 4 2.3 Wortnormalisierung Die Wortnormalisierung dient vor allem dazu, in der (späteren) Phase des part-ofspeech-tagging die Erkennung der Wortart sicherzustellen. Hierfür ist es ggf. nötig, produktive Konstruktionen wie Zahlwörter auf eine einheitliche Repräsentationsform abzubilden (da sonst prinzipiell unendlich viele entsprechende Lexikoneinträge vorhanden sein müssten) in verschiedenen Formen vorkommende Wörter zu vereinheitlichen (U.S.A. USA) verkürzte Formen zu expandieren ( s es) in verschiedenen Ausprägungen erscheinende Angaben (z.b. Datumsangaben) zu vereinheitlichen 2.4 Satzendeerkennung eigentlich eine Abartigkeit der Typographen Bei der Abtrennung der Interpunktionszeichen stellt die Behandlung des Punktes aufgrund seiner Ambiguität zwischen Satzende-Kennzeichner und Abkürzungspunkt das augenfälligste Problem dar: Erstens ist es nicht-trivial, eine Abkürzung als solche zu erkennen und zweitens übernimmt der Punkt nicht selten doppelte Funktion (statt etc.. am Satzende nur etc. ). Würden die Interpunktionszeichen generell zuerst abgetrennt, müssten Abkürzungspunkte explizit wieder aufgrund bestimmter Prinzipien angefügt werden (übrig blieben per default die Satzendepunkte). Eine einfache Heuristik für eine solche Erkennung von Satzendepunkten ist die folgende: Heuristik für Satzendeerkennung Trenne Punkte nicht ab, wenn sie unmittelbar einem alfanumerisches Zeichen vorangehen (wie in URLs oder Zeitangaben (22.08)) wenn sie direkt auf eine bekannte Abkürzung folgen (wie in Dr. oder etc.) wenn ihnen ein Kleinbuchstabe oder ein Satzzeichen folgt (wie in abgegeb., oder Friedr. von).

5 5 Ansonsten trenne sie ab. Hiermit werden allerdings Punkte in Ordinalzahlen (1. Schweizer Kongress) nicht erfasst und auch die Satzendeerkennung nicht zufriedenstellend behandelt. Die oben vorgestellte Option, zunächst eine Menge verschiedener Ausdrücke zu erkennen, hat z.b. für das Erkennen von Abkürzungen den weiteren Vorteil, dass eine entsprechende Abkürzungsliste verwendet werden kann (wofür intervenierende newlines eher hinderlich sind). Die Satzendeerkennung lässt sich ausserdem verbessern, wenn das Lexikon verwendet wird: Folgt auf einen Punkt ein Wort in Grossschreibung, das im Lexikon nicht als Nomen vorkommt, so liegt sehr wahrscheinlich ein Satzende vor. Heuristik für Satzendeerkennung nach erfolgter Erkennung von Abkürzungen Disambiguierung des Abkürzungspunktes In diesem Fall kann die folgende Heuristik angenommen werden: Trenne Punkte nicht ab, wenn ihnen ein Kleinbuchstabe oder ein Satzzeichen folgt (wie in abgegeb., oder Friedr. von) und isoliere das Token als bislang nicht erkannte Abkürzung. Füge einen Satzendepunkt hinzu, wenn auf eine Abkürzung ein Wort in Grossschreibung folgt, das im Lexikon nicht als Nomen vorkommt Ansonsten trenne sie ab. Diese Heuristik leidet nur noch unter der notorischen Unvollständigkeit von Listen (in diesem Fall von der Abkürzungsliste). Schliesslich bietet sich eine statistisch basierte Behandlung dieser Aufgaben an, die zunächst Information über mögliche Abkürzungen, Satzanfänge, Wörter vor und hinter Zahlen und Endungen von Wörtern (s. z.b. Berghangstr.) anhand grosser Korpora analysiert und diese dann auf konkrete Texte anwendet.

6 6 3. Entscheidungen beim Design eines Tokenizers Kontraktionen: Sollen Zeichenketten wie gibt s in zwei Token getrennt oder als eines belassen werden (die Frage stellt sich insbesondere im Englischen mit dem häufigen Auftreten von I ve, can t usw.)? Linguistisch gesehen sind zwei Token angemessen, da es sich um eine Kontraktion handelt. Verallgemeinert führt dies allerdings zu einem Problem: trennt man im Französischen das l ab (z.b. von l addition), so stellt es für das nachfolgende Tagging eine ambige Form dar (Artikel oder Pronomen); im Englischen besteht eine ähnliche Ambiguität für s zwischen Genitivendung und Kontraktion (das ist zum Glück nicht im Deutschen der Fall). Üblicherweise wird jedoch eine Trennung in zwei Token durch den Tokenizer vorgenommen. Tokenklassen: Nicht alle Token sind Wörter im engeren Sinne. Da die Tokenisierung sowieso eine intensivere Analyse der Eingabekette erfordert, lohnt es sich, deren Ergebnis als Klassifizierung der Token anhand von Tokenklassen festzuhalten. Dies kann vor allem die Verarbeitung in nachfolgenden Modulen vereinfachen. Mögliche Kandidaten sind ABK für Abkürzungen, ZEIToderERGEBNIS z.b. für 12:15, NCOMPLEX für F18-Pilot, COM für cp. Die Vielzahl komplexer Token ist ein weiteres Argument für die Einführung von Tokenklassen.

7 7 3.1 Sequenzierung der Aufgaben im Tokenizer Die Reihenfolge, in der die verschiedenen Einzelschritte zur Tokenisierung vorgenommen werden, ist entscheidend für den Erfolg. Bitte versuchen Sie, dies anhand der folgenden P-Demo zu ermitteln. Es ist kein vollständiger Tokeniser, aber sie könnten damit folgende Dinge ausprobieren: Dabei sind v.a. folgende Aspekte zu beachten: Mögliche Testwerte, welche zu interessanten Beobachtungen führen, sind Bitte beschreiben Sie Ihre Beobachtungen hier. Das folgende ggf. als Antwort auf den SET: Eine mögliche und sinnvolle konkrete Reihenfolge der Operationen eines Tokenizers ist wie folgt: 1. Bereinigung des Textes 2. Erkennen und Isolieren von Abkürzungen und komplexen Ausdrücken, Wortnormalisierung

8 8 Konkretes Vorgehen 1. Lexikon-basiert 2. Algorithmus-basiert (u.a. Satz(-NICHT)-zu-Ende-Erkennung!) 3. Zerlegung Zerlegung an white space characters Trennung kontrahierter Wörter Abtrennung der Interpunktionen und sonstiger Satz-/Sonderzeichen 4. Beseitigen von Markierungen, die zum Schützen eingefügt wurden Auf diese Weise bleiben wortinterne Sonderzeichen per default erhalten (vgl. AT&T usw.). Gleichzeitig kann hier Wortnormalisierung stattfinden, deren Ergebnisse ebenfalls isoliert werden. Dann findet die Abtrennung der Interpunktions- und Sonderzeichen statt, bei der im wesentlichen noch die Satzendeerkennung zu leisten ist. 4. Probleme Bislang existiert noch kein optimaler Algorithmus für die Tokenisierung. Neben den bereits genannten Problemen (sichere Satzendeerkennung, Behandlung der Ambiguität von Kontraktionen) bereiten die folgenden Aspekte notorische Schwierigkeiten: Erkennung und Unterscheidung von einfachen und doppelten Anführungszeichen und Apostroph Erkennung eingebetteter Sätze (z.b. Dies ist ein eingebetteter Satz) Entscheidung über die Komplexität von Token: Aus wievielen Token besteht Euro 300,-? Können z.b. runde Klammern Teil eines Tokens sein (s. Kohlendioxid(CO2)-Problematik)?

9 Vorverarbeitung Erkenntnis: der textuellen Einheiten: Tokenisierung Tokenisierung ist das Zerlegen einer Eingabekette in Einheiten, die die weitere computerlinguistische 9 Verarbeitung ermöglichen bzw. erleichtern, z.b. indem diesen Einheiten eine Wortart (partof-speech) zugewiesen werden kann. einfache Rekonstruktion Im Deutschen gibt es noch ein besonders unangenehmes (aber häufig vorkommendes) Problem: Auslassungen wie z.b. Ein- und Ausgang. Dies sind elliptische Konstruktionen, und einer brauchbarer Tokeniser für das Deutsche muss die vollständigen Formen rekonstruieren, wobei aber oft mehrere Rekonstruktionen denkbar sind: 1. Ein- und Aus gang Eingang und Ausgang Informations beschaffung und -verarbeitung alternierende Rekonstruktion 2. Text zugriff- und -verwaltungs systeme Textzugriffsysteme und Textverwaltungssysteme ambige Auslassungen 3. Anschaffungs- und Unterhalts kostenbilanz? Anschaffungs- und Unterhaltskosten bilanz * Anschaffungs- und Unter haltskostenbilanz 1. Das erste ist gut, weil eine der Zerlegung der Expansionen ist (Unterhaltskosten)bilanz), und ((Anschaffungskosten)bilanz) und ( Anschaffungskosten wie Unterhaltskosten sind ± feste Fachtermini, und erst noch parallel gebildete. 2. Das zweite ist nicht gut, weil Anschaffungsbilanz und Unterhaltskostenbilanz weder selbst Fachtermini sind noch sich in solche zerlegen lassen. 3. Das dritte ist ausgeschlossen, weil Anschaffungshaltskostenbilanz morphologisch nicht wohlgeformt ist.

10 10 5. Demos 5.1 Tokenizing II (L-Demos)[onl] Im folgenden finden sie zwei implementierte Tokenizer. Sie unterscheiden sich v.a. in folgenden Belangen: Covingtons Tokenizer oder Toni Arnolds Tokenizer ausprobieren! Ende der Lerneinheit Michael Hess 2002

11 Michael Hess 2002

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung. Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen

Mehr

Inhaltsverzeichnis WORTKOMBINATIONEN... 1

Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Inhaltsverzeichnis WORTKOMBINATIONEN... 1 Wortkombinationen Was leistet die Funktion Wortkombinationen? Die Funktion Wortkombinationen liefert eine Übersicht, welche Kombinationen von

Mehr

Sprachsynthese: Textnormalisierung

Sprachsynthese: Textnormalisierung Sprachsynthese: (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 24. Oktober 2016 Inhalt = Vorverarbeitung

Mehr

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung

Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =

Mehr

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Lateinische Morphologie: Anleitung

Lateinische Morphologie: Anleitung Im Folgenden geht es darum, eine knappe Anleitung für die morphologische Analyse einiger einfacher lateinischer Sätze zu geben. Diese folgt den Schritten, die in der ersten Einführung in die Arbeitsweise

Mehr

Tokenisierer Überblick

Tokenisierer Überblick 1 1. Überblick (engl. Tokenizers) sind Programme, die Texte für die Weiterverarbeitung durch anderer Programme (z.b. Tagger, Stemmer, Lemmatisierer oder Parser) in Teilketten, sog. Token zerlegen. Was

Mehr

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie

Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Wintersemester 2009/10, Prof. Dr. Udo Hahn, Erik Fäßler Übungsblatt 6 vom 10.12.2009 Abgabe bis 15.12.2009, 23:59 Uhr; per

Mehr

Python für Linguisten

Python für Linguisten Python für Linguisten Dozentin: Wiebke Petersen & Co-Dozentin: Esther Seyarth Fortgeschrittene Zeichenkettenverarbeitung mit regulären Ausdrücken Esther Seyarth Python 1 Motivation Wir haben bereits einige

Mehr

Mit Formatierungszeichen arbeiten

Mit Formatierungszeichen arbeiten Mit Formatierungszeichen arbeiten Inhaltsverzeichnis Sonderzeichen Suchen und Ersetzen... 1 Das Dialogfeld Ersetzen... 1 Weitere Bereinigungen im Text... 3 Das manuelle Zeilenende... 3 Weitere Tipps zum

Mehr

Grundlegende Laut-Buchstaben-Regeln bzw. -Beziehungen: Für den Laut [a] schreibt man a bzw. A etc. Für die Lautverbindung [ks] schreibt man x.

Grundlegende Laut-Buchstaben-Regeln bzw. -Beziehungen: Für den Laut [a] schreibt man a bzw. A etc. Für die Lautverbindung [ks] schreibt man x. 1. Klasse Grundlegende -Regeln bzw. -Beziehungen: Für den Laut [a] schreibt man a bzw. A etc. 2. Klasse x -Schreibung sp - und st -Schreibung Weitere -Regeln Grossschreibung der Namen Grossschreibung am

Mehr

Worthäufigkeiten - Worthäufigkeiten analysieren

Worthäufigkeiten - Worthäufigkeiten analysieren Worthäufigkeiten - Worthäufigkeiten analysieren Inhaltsverzeichnis WORTHÄUFIGKEITEN - WORTHÄUFIGKEITEN ANALYSIEREN... 1 Worthäufigkeiten - Worthäufigkeiten analysieren Die einfachste Funktion von MAXDictio

Mehr

Maschinelle Sprachverarbeitung Tokenisierung

Maschinelle Sprachverarbeitung Tokenisierung Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die

Mehr

CLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik

CLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik CLab Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT Chunk Parsing Universität Zürich Institut für Computerlinguistik Prof. Dr. Michael Hess 1. Voraussetzungen 2 Sie sollten wissen,

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Die deutsche Sprache

Die deutsche Sprache Die deutsche Sprache Inhalt Vorwort 5 Inhalt IZur Ein führ uns II Die neuen Schreibweisen III Die Wortschreibung III. 1 So funktioniert unsere Schrift: Buchstabe, Wort und Satz_ III. 1.1 Artikulationswechsel

Mehr

Eigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW

Eigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW Eigennamenerkennung mit großen lexikalischen Ressourcen Jörg Didakowski BBAW Was sind Eigennamen? Sprachliche Zeichen (Eigennamen) das Bezeichnete (Named Entity) Was sind Eigennamen? Eigennamen bezeichnen

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Harry gefangen in der Zeit Begleitmaterialien

Harry gefangen in der Zeit Begleitmaterialien Folge 015 Grammatik 1. Ordinalzahlen Mit Ordinalzahlen kann man eine Reihenfolge festlegen. Die Ordinalzahl gibt die Position eines Elements in der Reihe an. Zum Beispiel bilden die Tage eines Monats eine

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

Themen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf Ludgerusschule ) 1. Wichtige Fähigkeiten und Kenntnisse im Rechtschreiben

Themen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf Ludgerusschule ) 1. Wichtige Fähigkeiten und Kenntnisse im Rechtschreiben FACHBEREICH: DEUTSCH RECHTSCHREIBUNTERRICHT BESCHLUSS WEITERE HINWEISE: Kollegium der Ludgerusschule 24.02.2015 KONZEPTE UND VEREINBARUNGEN Themen des Rechtschreibunterrichts geordnet nach Jahrgängen (SchiLf

Mehr

Vergleiche und Transformationen für XML-Dokumente - Teil 2. Ein Ansatz zur hierarchischen, adaptiven Kollationierung

Vergleiche und Transformationen für XML-Dokumente - Teil 2. Ein Ansatz zur hierarchischen, adaptiven Kollationierung Vergleiche und Transformationen für XML-Dokumente - Teil 2 Ein Ansatz zur hierarchischen, adaptiven Kollationierung Varianz in der Gleichheit nicht nur der Manuskripte, sondern auch ihrer Teile die Elemente

Mehr

ORTHOGRAFIE. Design Manual

ORTHOGRAFIE. Design Manual ORTHOGRAFIE Design Manual Februar 2016 Einleitung Orthografie Das Erste richtet sich in nahezu allen Belangen der Schreibweise nach der vom amtlichen Regelwerk zugelassenen sogenannten Agentur-Rechtschreibung

Mehr

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Natürlichsprachliche Systeme I Materialien zur Vorlesung Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Multiplikation langer Zahlen

Multiplikation langer Zahlen Multiplikation langer Zahlen Aljoscha Rudawski 20.5.2017 Inhaltsverzeichnis 1 Einleitung 1 2 Multiplikation nach Lehrbuch 1 2.1 Addition langer Zahlen............................. 2 2.2 Multiplikation

Mehr

Die Regeln der deutschen Rechtschreibung

Die Regeln der deutschen Rechtschreibung Die Regeln der deutschen Rechtschreibung Vollständig und verständlich dargeboten von Klaus Heller OLMS- WEIDMANN 1 Grundsätzliches 11 1.1 Schreibung und Lautung 11 1.2 Schreibung und Bedeutung 12 2 Die

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation

Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation Martin Scholz martin.scholz@i8.informatik.uni-erlangen.de 05.02.2009 Inhalt Anwendungsfall: Goldschmiede-Texte

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

WDG Analyse und Transformation (WAT)

WDG Analyse und Transformation (WAT) WDG Analyse und Transformation (WAT) Studienprojekt von Ineta Sejane und Wiebke Wagner am Institut für Deutsche Sprache Mannheim WDG Das Wörterbuch zur deutschen Grammatik WDG enthält ca. 150 000 Lemmata.

Mehr

[wird Ihnen von Administrator/in oder Moderator/in zugewiesen]

[wird Ihnen von Administrator/in oder Moderator/in zugewiesen] Allgemeines Adresse Benutzername Passwort Bildformat Bildgrösse IHREDOMAIN/galerie [wird Ihnen von Administrator/in oder Moderator/in zugewiesen] [wird Ihnen von Administrator/in oder Moderator/in zugewiesen]

Mehr

Anhang. 1) Rechtschreibregeln in der Volksschule. 1) Rechtschreibregeln in der Volksschule 2) Rechtschreibregeln auf der Sekundarstufe II

Anhang. 1) Rechtschreibregeln in der Volksschule. 1) Rechtschreibregeln in der Volksschule 2) Rechtschreibregeln auf der Sekundarstufe II Anhang 1) Rechtschreibregeln in der Volksschule 2) Rechtschreibregeln auf der Sekundarstufe II 1) Rechtschreibregeln in der Volksschule Die kantonalen Lehrpläne stimmen im Fach Deutsch weitgehend überein.

Mehr

LFG-basierter Transfer

LFG-basierter Transfer Inhaltsverzeichnis 1 2 2 Ein Beispiel 4 3 Strukturaufbau 7 4 Alternative Übersetzungen 8 5 Adjunkte 9 6 Kodeskription 10 http://www.ims.uni-stuttgart.de/ gojunaa/mue_tut.html 1 1 Um einen quellsprachlichen

Mehr

Digital Humanities Recherche im DWDS und DTA

Digital Humanities Recherche im DWDS und DTA Digital Humanities Recherche im DWDS und DTA mit Booleschen Operatoren und Regulären Ausdrücken Jena Language & Information Engineering (JULIE) Lab Friedrich-Schiller-Universität Jena, Germany http://www.julielab.de

Mehr

Intonation in der Sprachsynthese

Intonation in der Sprachsynthese Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 1. Dezember 2010 Das MARY TTS-System TTS: Text-to-Speech MARY: Modular Architecture

Mehr

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010 Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

1 Lineare Gleichungssysteme und Matrizen

1 Lineare Gleichungssysteme und Matrizen 1 Lineare Gleichungssysteme und Matrizen Das Studium linearer Gleichungssysteme und ihrer Lösungen ist eines der wichtigsten Themen der linearen Algebra. Wir werden zunächst einige grundlegende Begriffe

Mehr

Komma, Punkt und alle anderen Satzzeichen

Komma, Punkt und alle anderen Satzzeichen Komma, Punkt und alle anderen Satzzeichen Alle Regeln der Zeichensetzung übersichtlich dargestellt Einfache Faustregeln und Tipps für knifflige Fälle Praxisnahe Beispiele Häufig gestellte n zum Doppelpunkt

Mehr

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 2. Spezifikation Schrittweise Verfeinerung

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 2. Spezifikation Schrittweise Verfeinerung UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 2 Spezifikation Schrittweise Verfeinerung Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger Straße 69,

Mehr

03 XML Grundlagen. Manuel Burghardt Lehrstuhl für Medieninformatik

03 XML Grundlagen. Manuel Burghardt Lehrstuhl für Medieninformatik Markupsprachen 03 XML Grundlagen Manuel Burghardt Warum XML? Nachteile von SGML und HTML SGML ist für die meisten Aufgaben zu komplex, und dadurch nicht sofort einsetzbar (komplexe Metasprache) HTML ist

Mehr

LÖSUNGEN ZU AUFGABE (41)

LÖSUNGEN ZU AUFGABE (41) DGB 40 Universität Athen, WiSe 2012-13 Winfried Lechner Handout #3 LÖSUNGEN ZU AUFGABE (41) 1. WIEDERHOLUNG: PARAPHRASEN, SITUATIONEN UND AMBIGUITÄT Ein Satz Σ ist ambig, wenn Σ mehr als eine Bedeutung

Mehr

Unterschiede in Dateien mit diff

Unterschiede in Dateien mit diff Unterschiede in Dateien mit diff diff datei1 datei2 vergleicht die Inhalte der beiden Dateien zeilenweise (bei Verzeichnissen die enthaltenen Dateien) und gibt die sich unterscheidenen Zeilen auf stdout

Mehr

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 16OH21005 gefördert. Die Verantwortung für den Inhalt dieser

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

1 AVL-Bäume. 1.1 Aufgabentyp. 1.2 Überblick. 1.3 Grundidee

1 AVL-Bäume. 1.1 Aufgabentyp. 1.2 Überblick. 1.3 Grundidee AVL-Bäume. Aufgabentyp Fügen Sie in einen anfangs leeren AVL Baum die folgenden Schlüssel ein:... Wenden Sie hierbei konsequent den Einfüge /Balancierungsalgorithmus an und dokumentieren Sie die ausgeführten

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Textfunktionen. Die Tabellenfunktion LINKS. Zellinhalte extrahieren

Textfunktionen. Die Tabellenfunktion LINKS. Zellinhalte extrahieren Kapitel 5 201 Die sind dann sehr wertvoll, wenn Sie Texte in Tabellen bearbeiten oder anpassen möchten. Oft müssen vor allem Daten, die aus Fremdsystemen kommen, in Excel umgewandelt und in eine besser

Mehr

Modell Bahn Verwaltung. Tutorial. Links. Min. Programm Version 0.65, März w w w. r f n e t. c h 1 / 11

Modell Bahn Verwaltung. Tutorial. Links. Min. Programm Version 0.65, März w w w. r f n e t. c h 1 / 11 Modell Bahn Verwaltung Tutorial Links Min. Programm Version 0.65, März 2015 Tutorial Version 04.01.2017 rfnet Software w w w. r f n e t. c h 1 / 11 Vorwort... 3 1 Links... 4 1.1 Einführung... 4 1.2 Link

Mehr

Das Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko

Das Informationsextraktions- System ANNIE. Anna Mazhayskaya Anna Vinenko Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007 Informationsextraktion Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren

Mehr

Schriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009

Schriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009 Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009 Typen von n Alphabete Lateinische Schrift Griechische Schrift Kyrillische Schrift Konsonantenschriften

Mehr

Einführung in die Informatik Turing Machines

Einführung in die Informatik Turing Machines Einführung in die Informatik Turing Machines Eine abstrakte Maschine zur Präzisierung des Algorithmenbegriffs Wolfram Burgard Cyrill Stachniss 1/14 Motivation und Einleitung Bisher haben wir verschiedene

Mehr

Algorithmus: Kochrezept

Algorithmus: Kochrezept Algorithmus: Kochrezept Ziel: Menü mit drei Gängen für 4 Personen Grundlegende Spezifikation: 1. Vorspeise: Badische Flädlesuppe 2. Hauptgericht: Überbackene Schinkenröllchen mit Spargel 3. Dessert: Vanilleeis

Mehr

Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik

Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik Einführung in die Computerlinguistik Einführung in Python (3) Tokenizer und Textstatistik Dozentin: Wiebke Petersen 12. Foliensatz Wiebke Petersen Einführung CL 1 Kurzwiederholung der letzten Sitzung Dateien

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Grundlagen der Programmentwurfstechnik Fundamentals of Software Engineering 1

Grundlagen der Programmentwurfstechnik Fundamentals of Software Engineering 1 Vorlesung 9 Fundamentals of Software Engineering 1 Inhaltsverzeichnis 1. Einführung 2. Allgemeine Modellbildung 3. Strukturierte Analyse 4. Strukturierter Entwurf (SE) 4.1 Aufbau der Modellierungsphasen

Mehr

Übersicht PERL. !!!! Wichtig: Nach dem Befehl einem Strichpunkt setzen!!!!

Übersicht PERL. !!!! Wichtig: Nach dem Befehl einem Strichpunkt setzen!!!! !!!! Wichtig: Nach dem Befehl einem Strichpunkt setzen!!!! Erste Zeile eines PERL-Scripts: #! /usr/bin/perl Variablen in PERL: Normale Variablen beginnen mit einem $-Zeichen Array-Variablen beginnen mit

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Einstieg in die Informatik mit Java

Einstieg in die Informatik mit Java 1 / 17 Einstieg in die Informatik mit Java String Tokenizer Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 17 1 Überblick Tokenizer 2 StringTokenizer 3 Verwendung von String.split

Mehr

5 Benutzungsoberfläche

5 Benutzungsoberfläche 5 Mit Ausnahme der in Kapitel 4.1 beschriebenen ÜNs wurde das Verfahren zur Transformation von Hauptansprüchen als JAVA-Anwendung implementiert. Die Anwendung, genannt ClaimTransformer, umfasst zusätzlich

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

DUDEN. Die Neuregelung der deutschen Rechtschreibung. Regeln, Kommentar und Verzeichnis wichtiger Neuschreibungen. von Peter Gallmann und Horst Sitta

DUDEN. Die Neuregelung der deutschen Rechtschreibung. Regeln, Kommentar und Verzeichnis wichtiger Neuschreibungen. von Peter Gallmann und Horst Sitta DUDEN Die Neuregelung der deutschen Rechtschreibung Regeln, Kommentar und Verzeichnis wichtiger Neuschreibungen von Peter Gallmann und Horst Sitta DUDENVERLAG Mannheim Leipzig Wien Zürich Inhaltsverzeichnis

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was

Mehr

Gedächtnis. Extern gewonnene Informationen werden in drei Stufen verarbeitet:

Gedächtnis. Extern gewonnene Informationen werden in drei Stufen verarbeitet: Gedächtnis Gedächtnis Extern gewonnene Informationen werden in drei Stufen verarbeitet: Aufnahme in das Arbeitsgedächtnis ( Kurzzeitgedächtnis ) Abgleich mit langfristig gespeicherten Strukturen Integration

Mehr

Proseminar UNIX Tools. Ferdinand Beyer

Proseminar UNIX Tools. Ferdinand Beyer Reguläre Ausdrücke Proseminar UNIX Tools Ferdinand Beyer Technische Universität München 08.11.2005 Ferdinand Beyer (TUM) Reguläre Ausdrücke 08.11.2005 1 / 39 Gliederung Allgemeines 1 Allgemeines 2 Notation

Mehr

PRIMZAHLEN PATRICK WEGENER

PRIMZAHLEN PATRICK WEGENER PRIMZAHLEN PATRICK WEGENER 1. Einführung: Was sind Primzahlen? Eine ganze Zahl p, welche größer als 1 ist, heißt Primzahl, wenn sie nur durch 1 und sich selbst teilbar ist. Mit teilbar meinen wir hier

Mehr

Verzerrung bei räumlichen Urteilen. 16. November 2010

Verzerrung bei räumlichen Urteilen. 16. November 2010 Verzerrung bei räumlichen Urteilen Teil 1 16. November 2010 Repräsentationen (Wissens-) Repräsentation Wissen: Speicherung, Integration und Organisation von Informationen im Gedächtnis Repräsentation:

Mehr

Zerlegung von Webuser-Kommentaren

Zerlegung von Webuser-Kommentaren Zerlegung von Webuser-Kommentaren Simon Rüppel Lehrstuhl für heoretische Informationstechnik 20.02.2013 1. Motivation Ziel: Part of Speech (POS) - agging für Social Media exte -> Jedem Wort (oken) eine

Mehr

Sprachlehr- & Sprachlernsysteme

Sprachlehr- & Sprachlernsysteme Sprachlehr- & Sprachlernsysteme Tutorielle & Toolartige Systeme Einführung in die Computerlinguistik WS 04/05 Dozentin: Wiebke Petersen Referentin: Maria Ruhnke Tutorielle Systeme lernen durch Instruktion,

Mehr

Syntax - Das Berechnen syntaktischer Strukturen beim menschlichen Sprachverstehen (Fortsetzung)

Syntax - Das Berechnen syntaktischer Strukturen beim menschlichen Sprachverstehen (Fortsetzung) Syntax - Das Berechnen syntaktischer Strukturen beim menschlichen Sprachverstehen (Fortsetzung) Markus Bader 9. Februar 2004 Inhaltsverzeichnis 4 Übertragung ins e 1 4.3 Bewegung und Satztyp................................

Mehr

Linux II. Reguläre Ausdrücke Editoren Scripting. 2 Linux II. Linux I II III Res WN/TT NLTK XML Weka E Reguläre Ausdrücke Editoren Scripting

Linux II. Reguläre Ausdrücke Editoren Scripting. 2 Linux II. Linux I II III Res WN/TT NLTK XML Weka E Reguläre Ausdrücke Editoren Scripting Linux II 2 Linux II Reguläre Ausdrücke Editoren Scripting Reguläre Ausdrücke Reguläre Ausdrücke beschreiben eine Menge von Zeichenfolgen und werden benutzt um m festzustellen, ob eine Zeichenkette Teil

Mehr

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort? Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen

Mehr

Corporate design corporate wording

Corporate design corporate wording 4663/AB XXV. GP - Anfragebeantwortung - Anlage 1 von 6 Corporate design corporate wording Grundsätzliche Informationen Überarbeitete Version 27. August 2010 1 2 von 6 4663/AB XXV. GP - Anfragebeantwortung

Mehr

Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 12/13. Kapitel 3. Grunddatentypen, Ausdrücke und Variable

Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 12/13. Kapitel 3. Grunddatentypen, Ausdrücke und Variable 1 Kapitel 3 Grunddatentypen, Ausdrücke und Variable 2 Eine Datenstruktur besteht aus Grunddatentypen in Java einer Menge von Daten (Werten) charakteristischen Operationen Datenstrukturen werden mit einem

Mehr

Lexical Recognition in Sign Language: Effects of Phonetic Structure and Morphology

Lexical Recognition in Sign Language: Effects of Phonetic Structure and Morphology Lexical Recognition in Sign Language: Effects of Phonetic Structure and Morphology Der Text befasst sich mit der phonetischen und morphologischen Struktur der American Sign Language ( ASL). ASL ist die

Mehr

Kombinatorische Optimierung

Kombinatorische Optimierung Juniorprof. Dr. Henning Meyerhenke 1 Henning Meyerhenke: KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Vorlesung 4 Programm des

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Hinweise für das Maschinenschreiben und die Facharbeit neu 11/2009

Hinweise für das Maschinenschreiben und die Facharbeit neu 11/2009 Hinweise für das Maschinenschreiben und die Facharbeit neu 11/2009 Die folgenden Hinweise beschränken sich auf die in der Praxis am häufigsten auftretenden Probleme. (Vgl. auch die Richtlinien für den

Mehr

U. Rausch, 2010 Potenzrechnung 1

U. Rausch, 2010 Potenzrechnung 1 U. Rausch, 2010 Potenzrechnung 1 Potenzrechnung 1 Schreibweise und Potenzrechenregeln Unter einer Potenz versteht man ein Symbol der Form a x, gesprochen a hoch x, wobei a und x (reelle) Zahlen sind. Dabei

Mehr

Mathematische Grundlagen der Computerlinguistik Wahrscheinlichkeit

Mathematische Grundlagen der Computerlinguistik Wahrscheinlichkeit Mathematische Grundlagen der Computerlinguistik Wahrscheinlichkeit Dozentin: Wiebke Petersen 8. Foliensatz Wiebke Petersen math. Grundlagen 1 Motivation Bsp.: In vielen Bereichen der CL kommt Wahrscheinlichkeitstheorie

Mehr

Linux I II III Res/Pro WN/TT Reguläre Ausdrücke Editoren Scripting. Linux II. 2 Linux II. Reguläre Ausdrücke Editoren Scripting. Ressourcen-Vorkurs

Linux I II III Res/Pro WN/TT Reguläre Ausdrücke Editoren Scripting. Linux II. 2 Linux II. Reguläre Ausdrücke Editoren Scripting. Ressourcen-Vorkurs Linux II 2 Linux II Reguläre Ausdrücke Editoren Scripting POSIX POSIX POSIX ist ein UNIX-Standard, der bestimmte grundlegende Funktionen und Eigenschaften von UNIX-Systemen definiert. Dazu gehören auch

Mehr

RDA-Einführung. Verknüpfung zur fortlaufenden Ressource

RDA-Einführung. Verknüpfung zur fortlaufenden Ressource Feld 4180 Unterfeld $l: Verknüpfung zur fortlaufenden Ressource Zählung in Vorlageform Präzisierungen zur Erfassung von Zählungen und deren r sowie Erfassung von Erscheinungsjahren bei fortlaufenden Ressourcen

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

LR(1) Itemmengenkonstruktion

LR(1) Itemmengenkonstruktion LR(1) Itemmengenkonstruktion Grammatik: S A$ xb A aab B B x Sprache: {xb} {anxbn n 0} nicht LL(1) x FIRST(B) x FIRST(A) also: FIRST/FIRST Konflikt bei S A$ xb nicht SLR(1) (Abb. 2.96) betrachte Item B

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe

Mehr

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen WS 2005/2006 Anke Lüdeling with a lot of help from Stefan Evert & Marco Baroni Kontrastive Analyse (CIA) (quantitativer) Vergleich von zwei

Mehr

XML Extensible Markup Language

XML Extensible Markup Language XML light XML Extensible Markup Language Jörn Clausen joern@techfak.uni-bielefeld.de Übersicht Woher? Wohin? Warum? Bestandteile von XML XML-Dokumente erstellen und bearbeiten XML light XML Extensible

Mehr

Handreichungen Aufgaben für zu Hause 4. Schuljahr

Handreichungen Aufgaben für zu Hause 4. Schuljahr Handreichungen Aufgaben für zu Hause 4. Schuljahr Liebe Eltern, in der Liebfrauenschule wurden die Hausaufgaben durch Lernzeiten ersetzt. Wir finden es dennoch weiterhin wichtig, dass Sie zu Hause mit

Mehr

Qualität der Formulierung: Missverständliche Formulierungen erkennen und vermeiden. Martin Jung 26/

Qualität der Formulierung: Missverständliche Formulierungen erkennen und vermeiden. Martin Jung 26/ Qualität der Formulierung: Missverständliche Formulierungen erkennen und vermeiden Martin Jung 26/27.04.2001 Zusammengesetzte Wörter Bei zusammengesetzten Wörtern ist die Bedeutungsrelation, in der die

Mehr

Kopiervorlagen. Rechtschreibung und Wortkunde. Schülerduden. Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10.

Kopiervorlagen. Rechtschreibung und Wortkunde. Schülerduden. Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10. Kopiervorlagen Schülerduden Rechtschreibung und Wortkunde Arbeitsblätter zur Benutzung eines Wörterbuchs zum Üben und Wiederholen 5. bis 10. Klasse Für den Deutschunterricht an Gymnasium, Realschule und

Mehr

Die Erarbeitung der Laute/Buchstaben bezieht sich immer auf das Schreiben und Lesen.

Die Erarbeitung der Laute/Buchstaben bezieht sich immer auf das Schreiben und Lesen. Year Schüler täglich außerschulisch fünf Minuten laut lesen üben. Es wird empfohlen, die im Unterricht erarbeiteten Texte als Grundlage zu verwenden. Alle Übungsformen und -spiele, die im Laufe der einzelnen

Mehr