2.3 UNITEX Ein System zur Anwendung lokaler Grammatiken
|
|
- Nelly Klein
- vor 7 Jahren
- Abrufe
Transkript
1 2.3 UNITEX Ein System zur Anwendung lokaler Grammatiken UNITEX ist ein Korpusverarbeitungssystem, welches es ermöglicht, mit elektronischen Ressourcen wie z.b. elektronischen Lexika umzugehen und lokale Grammatiken zu entwickeln und anzuwenden. Dabei wird auf drei Ebenen der Sprache der Morphologie, dem Lexikon und der Syntax gearbeitet. Die Hauptfunktionen von UNITEX sind u.a das Erzeugen, sowie die Anwendung und Verarbeitung elektronischer Wörterbücher, die Benutzung von regulären Ausdrücken zum Pattern Matching, die Interpretation rekursiver Transitionsnetze zum Pattern Matching, die Anwendung von lokalen Grammatiken und Lexikongrammatiken und die Auflösung von Ambiguitäten über den Text-Automaten. Das Konzept für das System UNITEX wurde am LADL (Laboratoire d Automatique Documentaire und Linguistique) unter der Leitung von Prof. Maurice Gross entwickelt, und das dazugehörige Programm wurde am Institut Gaspard-Monge (IGM) der Université de Marne-la-Vallée von Sébastien Paumier implementiert. Derzeit werden für UNITEX Lexika in 14 verschiedene Sprachen (Deutsch, Englisch, Finnisch, Französisch, Griechisch, Italienisch, Koreanisch, Norwegisch, Polnisch, Portugiesisch, Brasilianisches Portugiesisch, Russisch, Spanisch und Thai) angeboten. Da UNITEX im Gegensatz zu INTEX frei verfügbar ist und unter der GNU GPL (GNU General Public License) steht, kann es im Grunde jeder benutzen. Außerdem stellt es ganz ähnliche Funktionen wie INTEX zur Verfügung und ist auf allen gängigen Betriebssystemen (Windows, Linux, MacOS) lauffähig. 6 Vorallem bietet UNITEX eine komfortable und intuitiv bedienbare Oberfläche zur Entwicklung von Grammatiken. Dabei handelt es sich um eine Java-Oberfläche, von der aus diverse C++-Programme gesteuert werden Textvorverarbeitung UNITEX arbeitet mit der Kodierung UTF-16 Little Endian und unterstützt somit den Unicode 3.0 Standard. Dadurch wird selbst die Verarbeitung asiatischer Sprachen ermöglicht. Zur Konvertierung der Texte empfiehlt sich das Programm Convert von UNITEX. Nachdem UNITEX mit der gewählten Sprache gestartet worden ist, kann man einen Text mit der Kodierung UTF-16 LE öffnen. Dabei wird gefragt, wie der Text vorverarbeitet werden soll. Die Textvorverarbeitung von UNITEX setzt sich aus den Schritten Normalisierung, Satzenderkennung, Auflösung von Kontraktionen, Tokenisierung und lexikalische Analyse des Korpus zusammen
2 Normalisierung Es ist Aufgabe des Programms Normalize die Normalisierung des Textes vorzunehmen, indem Folgen von Leerzeichen bzw. Zeilenumbrüchen durch ein Zeichen ersetzt werden. Gleichzeitig wird die interne Syntax von eventuell lexikalisch annotierten Token überprüft. Satzenderkennung und Auflösung von Kontraktionen UNITEX bietet eine sprachspezifische Satzenderkennung mittels lokaler Grammatiken in Form von Graphen an. Des Weiteren werden Kontraktionen wie z.b. I m zu I am oder you re zu you are aufgelöst und verschiedene Arten von Anführungszeichen vereinheitlicht. Tokenisierung Hierfür ist das Programm Tokenize von UNITEX zuständig. Die Tokenisierung wird aufgrund des Alphabets der jeweiligen Sprache vorgenommen. Die daraus resultierende Tokenliste wird für spätere Zwecke im Arbeitsverzeichnis des aktuellen Textes gespeichert. Lexikalische Analyse Bei der lexikalischen Analyse werden alle Standardwörterbücher der jeweiligen Sprache und eventuell noch eigene Lexika auf die Tokenliste angewendet. Dabei kommt das Programm Dico zum Einsatz, welches alle Token mit der entsprechenden grammatikalischen oder semantischen Information aus den Lexika versieht. Alle Lexika, welche vom System UNITEX verwendet werden sollen, müssen formal dem Standard der DELA Wörterbücher entsprechen DELA Wörterbücher [Geierhos, 2005] Das klassische Wörterbuch ist eine Sammlung von Wörtern oder einer Kategorie von Wörtern einer Sprache, die in der Regel in alphabetischer Ordnung mit Erläuterungen in derselben Sprache oder einer Übersetzung derer in eine andere Sprache aufgelistet sind (Lexis, 1975). Dagegen ist das elektronische Wörterbuch eine formale Repräsentation eines Lexikons, welche jeder Flexionsform ihr Lemma, genauso wie die entsprechende grammatikalische, Flexions- und eventuelle semantische Information zuweist (nach Sébastien Paumier) 7. Überdies hinaus wird von einem elektronischen Wörterbuch gefordert, dass es formal und vollständig ist, so dass es sich maschinell verarbeiten lässt und es von Programmen automatisch verändert werden kann. Theoretisch müsste es 100% des Lexikons abdecken, was allerdings kaum realisierbar ist. 7 Übersetzung aus dem Französischen 19
3 DELA ist ein elektronisches Wörterbuchsystem und steht für Dictionnaires électroniques du LADL 8. In den 60er Jahren wurde es von Prof. Maurice Gross ins Leben gerufen, und war zunächst unter dem Namen Lexikon Grammatik bekannt. Das DELA ist eine formale Repräsentation der jeweiligen Sprache; das heißt, Spracheigenschaften werden strukturiert abgespeichert, wobei sowohl Vokabular als auch Morphologie berücksichtigt werden. Die DELA-Wörterbuchfamilie gliedert sich in folgende Teillexika: DELAS mots simples : Wörterbuch für die einfachen Wörter DELAC mots composés : Wörterbuch für die komplexen Wörter DELAF formes fléchies : Wörterbuch der einfachen Wörter, deren Flexionsmerkmale kodiert sind. DELACF mots composés avec les formes fléchies : Wörterbuch der komplexen Wörter, deren Flexionsmerkmale kodiert sind. Dabei werden als einfache Wörter ( mots simples ) Sequenzen zusammenhängender Buchstaben eines Alphabets einer bestimmten Sprache verstanden, wie z.b. angry,.a oder acually,.adv oder bodies,body.n:p. Dagegen sind komplexe Wörter ( mots composés ) Sequenzen zusammengesetzter lexikalischer Einheiten wie einfache Wörter, Trennzeichen oder Ziffern. Beispiele aus dem Französischen wären hierfür coup de chance,.n+ndn:ms (Glückstreffer) oder coup de pied,.n+ndn:ms (Fußtritt) oder das ambige coup de foudre,.n+ndn:ms (Liebe auf den ersten Blick /Blitzschlag). Die eben genannten Beispiele deuteten bereits an, dass hinter einem Eintrag im DELAF eine gewisse Symbolik steht. So besteht ein Lexikoneintrag im DELAF aus 5 verschiedenen Feldern [Courtois, 2004]: 1. Flektierte Form des Wortes 2. Lemma des Wortes (Kanonische Form) 3. Charakteristische Informationen zur Lemmaform 4. Grammatikalische Eigenschaften der flektierten Form 5. Optionale Ergänzungen für den menschlichen Betrachter Analog dazu wird ein Eintrag im DELACF gebildet. Dabei sollte man noch anmerken, dass das zweite Feld (die Lemmaform) immer dann leer ist, wenn sie mit der flektierten Form identisch ist. Dafür wird das vierte Feld (die grammatikalische Information für die flektierte Form) nicht belegt, wenn das Wort eindeutig ist, und es nicht variiert 8 LADL = Laboratoire d Automatique Documentaire et Linguistique 20
4 werden kann. Außerdem wird das fünfte und letzte Feld (die Zusatzinformation) nur besetzt, wenn die flektierte Form das Ausgangswort ein Kompositum ist. Genau die gleichen Regeln gelten für Lexikoneinträge im DELAS und DELAC, nur dass hier die Flexionsinformation entfällt. An einem konkreten Beispiel würde dies nun folgendes bedeuten: bodies,body.n:p bodies : flektierte Form body : Lemmaform N : grammatikalische Information (Nomen) p : grammatikalische Eigenschaft der flektierten Form (Plural) Bei der Erstellung eigener Lexika sollte darauf geachtet werden, dass Mehrwortlexeme direkt im Lexikon kodiert werden, weil sonst Fehler bei der Tokenisierung gemacht werden. Wenn man nur ein Teilformenlexikon verwenden würde, könnte beispielsweise grand-mère nicht als ein Wort erkannt werden. Oft besteht auch die Möglichkeit Mehrwortlexeme wie grand-mère (Großmutter) anstatt des Bindestrichs mit einem Leerzeichen dazwischen zu schreiben. Dafür wäre dann grand=mères,grand=mère.n:fp der entsprechende Lexikoneintrag, denn das = ist ein Metazeichen, was für einen Bindestrich - und für ein Leerzeichen steht. Je nachdem wie ausführlich die Kodierung eines Lexikons mit diversen grammatikalischen oder semantischen Angaben vorgenommen wurde, spricht man von 3 Stufen der Lexikonkodierung: DELAF-S ( short ): Es werden minimale Angaben zur grammatikalischen Analyse der einzelnen Formen gemacht. Das heißt, dass lediglich Informationen zur jeweiligen Wortart und zur Flexion kodiert werden. Hier wird ausschließlich auf die Grammatik Bezug genommen. DELAF-M ( medium ): Die Lexikoneinträge werden um semantische Informationen zu den Nomina erweitert. Dabei wird spezifiziert, welche Eigenschaften das Nomen hat, z.b. ob es ein Menschenbezeichner Hum, ein Konkreta Conc oder ein Tier Anl etc. ist. Außerdem werden Determinativa DET und Pronomina PRO durch weitere Unterkategorien versehen. Auf diese Weise wird die Semantik miteinbezogen. DELAF-L ( large ): Hierbei werden die Wörterbucheinträge um die Lexikongrammatik der LADL ergänzt, so dass die syntaktischen Eigenschaften der Verben im Französischen markiert werden (Berücksichtigung der Syntax). Wie ausführlich nun ein Lexikoneintrag erstellt wird, hängt ganz von seiner späteren Funktion ab und über welche Art von Informationen er später angesprochen werden soll. Das heißt nichts anderes, als dass beispielsweise Nomina, welche die semantische Funktion eines Menschenbezeichners haben, auch als solche markiert werden sollten. Legt man allerdings nachher Wert auf Kongruenzeigenschaften, so sollte man auf keinen Fall die grammatikalische Information außer Acht lassen. 21
5 2.3.3 Prioritäten bei der Anwendung der Lexika UNITEX unterscheidet drei Prioritäten bei der Anwendung der Lexika, falls der Dateiname eines Lexikons (ohne die Endung.bin) auf - bzw. + endet: 1. *-.bin (höchste Priorität diese Lexika werden vorrangig behandelt) 2. *.bin (durchschnittliche Priorität diese Lexika werden zweitrangig behandelt) 3. *+.bin (niedrigste Priorität diese Lexika werden zuletzt auf den Text angewendet) Token, die einem der Lexika einer Prioritätsebene gefunden wurden, werden in keinem Lexikon mit untergeordneter Priorität mehr nachgeschlagen. So lassen sich z.b. bestimmte Lesarten für ein Token erzwingen, da das höher priorisierte Lexikon wie ein Filter andere Bedeutungen aussiebt. Innerhalb einer Prioritätsebene werden alle Lexika gleichrangig behandelt, d.h. verschiedene Lesarten eines Tokens aus unterschiedlichen Lexika werden ins Textlexikon geschrieben Mustererkennung und Konkordanzen Wie bereits erwähnt, werden lokale Grammatiken im System UNITEX als Graphen (DAGs) repräsentiert. Möchte man nun eine lokale Grammatik auf einem Korpus testen, so wählt man den entsprechenden Graphen aus, und das Programm Locate wendet diesen Graphen auf den Text an und erstellt den Index für eine Konkordanz. Dabei bietet Locate dem Benutzer verschiedene Arten der Textsuche an, bei der die kürzesten Treffer, die längsten Treffer oder alle Treffer ausgegeben werden. Außerdem lässt sich das Verhalten des Graphen steuern, falls es sich um einen Transduktor handelt. Es gibt folgende Möglichkeiten: Die Ausgabe des Transduktors bleibt unberücksichtigt. Die Ausgabe des Transduktors wird links vom Treffer eingefügt. Die gefundene Sequenz wird durch die Ausgabe des Transduktors ersetzt. Für das Anfertigen einer Konkordanz ist das Programm Concord zuständig. Es gibt einerseits die Konkordanz in verschiedenen Formaten aus (HTML, Text), und andererseits lässt sich die Länge des Kontextes und die Sortierweise der Treffer spezifizieren. 9 vgl. 22
DELA Wörterbücher ===========================================================
DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela
Eingabeteil des Transduktors dient dazu, spezifische Sequenzen im Text zu erkennen. Der
2 Lokale Grammatiken 2.1 Was sind lokale Grammatiken? Lokale Grammatiken kann man als Landkarten der Sprache bezeichnen (Mallchok, 2004 [55]), die einerseits Sequenzen von Wörtern, welche semantische Einheiten
Grammatik der Menschenbezeichner in biographischen Kontexten
Ludwig-Maximilians-Universität München Centrum für Informations- und Sprachverarbeitung (CIS) Magisterarbeit im Studiengang Computerlinguistik Grammatik der Menschenbezeichner in biographischen Kontexten
Grammatik der Menschenbezeichner in biographischen Kontexten
Ludwig-Maximilians-Universität München Centrum für Informations- und Sprachverarbeitung (CIS) Magisterarbeit im Studiengang Computerlinguistik Grammatik der Menschenbezeichner in biographischen Kontexten
Algorithmen und Formale Sprachen
Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und
Teil 111. Chart-Parsing
Teil 111 Chart-Parsing 102 Die im ersten Teil des Buches behandelten einfachen Parsingalgorithmen sind, anders als die meisten vor allem im Compilerbau verwendeten Algorithmen (z.b. die LLoder LR-Parsingalgorithmen),
Einführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:
Stratego/XT und ASF+SDF Meta-Environment. Paul Weder Seminar Transformationen Datum:
Stratego/XT und ASF+SDF Meta-Environment Paul Weder Seminar Transformationen Datum: 20.01.2006 Gliederung Allgemeines ASF+SDF Meta-Environment Stratego/XT Zusammenfassung/Vergleich SDF (Syntax Definition
Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri
Sprachanalyse WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Inhalt 1. Formale Sprachen 2. Chomsky-Hierarchie 2 FORMALE SPRACHE 1. WAS IST EINE SPRACHE? 2. WIE BESCHREIBT MAN EINE SPRACHE? 3. WAS
Adventure-Problem. Vorlesung Automaten und Formale Sprachen Sommersemester Adventure-Problem
-Problem Vorlesung Automaten und Formale Sprachen Sommersemester 2018 Prof. Barbara König Übungsleitung: Christina Mika-Michalski Zum Aufwärmen: wir betrachten das sogenannte -Problem, bei dem ein Abenteurer/eine
VP vs.?p. N V P N? N P N V Peter kommt nach Hause...dass Peter nach Hause kommt. Syntax V 2
Syntax V Rechts- vs. Links-Köpfigkeit VL-Sätze als grundlegende Muster funktionale Kategorien IP/CP zum Nachlesen: Grewendorf/Hamm/Sternefeld: Sprachliches Wissen, S. 213-223, Kap. 7.1., 7.2 Syntax V 1
Einführung in die Programmiertechnik
Einführung in die Programmiertechnik Formale Beschreibung von Programmiersprachen Lexikalische Regeln Definition von Wörtern (Lexem, Token) Gruppierung von Zeichen Lexikalische Kategorien: Klassen ähnlicher
Analyse biographischer Ereignisse: 3. Beruflicher Werdegang
Analyse biographischer Ereignisse: 3. Beruflicher Werdegang Grammatik und Lexikon der Berufsbezeichnungen Referentin: Beate Vogg 10.12.09 Seminar: BiographIE Informationsextraktion aus biographischen Kontexten,
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1.
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen
HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer
HPSG Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer Gliederung Einleitung Kongruenz Allgemein Zwei Theorien der Kongruenz Probleme bei ableitungsbasierenden Kongruenztheorien Wie syntaktisch
Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -
Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 1 Exkurs: Formale
Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -
Algorithmen und Datenstrukturen I - - Thies Pfeiffer Technische Fakultät tpfeiffe@techfak.uni-bielefeld.de Vorlesung, Universität Bielefeld, Winter 2012/2013 1 / 22 Exkurs: Formale Sprachen Im Kapitel
Changes version
Changes version 1.4.0.0 Directory Neuerungen...2 Familiendiagramm...2 Suche nach Inhaber (Owner)...3 Anmeldergruppierung nach Inhaber (Owner)...6 Erweiterter PDF-Download...6 Änderungen im Volltextindex...7
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht
xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
Formale Sprachen und Automaten
Formale Sprachen und Automaten Kapitel 1: Grundlagen Vorlesung an der DHBW Karlsruhe Thomas Worsch Karlsruher Institut für Technologie, Fakultät für Informatik Wintersemester 2012 Ziel Einführung der wichtigsten
Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester 2013
Automaten und Formale Sprachen alias Theoretische Informatik Sommersemester 2013 Dr. Sander Bruggink Übungsleitung: Jan Stückrath Sander Bruggink Automaten und Formale Sprachen 1 Reguläre Ausdrücke Wozu
3. Nur die mit diesen Regeln erzeugten Ausdrücke sind reguläre Ausdrücke über Σ.
H O C H S C H U L E University of Applied Sciences ZITTAU/GÖRLITZ Fachbereich Informatik Prof. Dr. Christian Wagenknecht Formale Sprachen und Automaten Übung: Reguläre Ausdrücke Zur Erinnerung: Reguläre
Martin Schmidt
Martin Schmidt 22.05.2003 Inhalt: Überblick Generelles Scanner Parser Compiler-Erzeugung Abschließendes 2 1. Überblick 3 JACCIE = JAva-based Compiler-Compiler with Interactive Environment (Java-basierter
Kapitel 2. Methoden zur Beschreibung von Syntax
1 Kapitel 2 Methoden zur Beschreibung von Syntax Grammatik, die sogar Könige zu kontrollieren weiß... aus Molière, Les Femmes Savantes (1672), 2. Akt 2 Ziele Zwei Standards zur Definition der Syntax von
NLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
Transition Network Parser
Transition Grammatik als endlicher Automat oder Übergangsnetzwerk. Jedes Netzwerk repräsentiert ein Nichtterminal. Kanten repräsentieren Terminale oder Nichtterminale. Pfad durch das Netzwerk korrespondiert
Proseminar Komplexitätstheorie P versus NP Wintersemester 2006/07. Nichtdeterministische Turingmaschinen und NP
Proseminar Komplexitätstheorie P versus NP Wintersemester 2006/07 Vortrag am 17.11.2006 Nichtdeterministische Turingmaschinen und NP Yves Radunz Inhaltsverzeichnis 1 Wiederholung 3 1.1 Allgemeines........................................
7. Syntax: Grammatiken, EBNF
7. Syntax: Grammatiken, EBNF Teil 1 Sehr schönes Beispiel für Notwendigkeit der Theoretischen Informatik für Belange der Praktischen Informatik Vertiefung in: Einführung in die Theoretische Informatik
Implementierung eines LR-Parser-Generators mit syntaktischen Prädikaten
Implementierung eines LR-Parser-Generators mit syntaktischen Prädikaten Aufgabenbeschreibung 29. Juli 2011 1 Einleitung und Motivation Der Parser-Generator Antlr [Par07] bietet die Möglichkeit, die Auswahl
Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber
Speech Recognition Grammar Compilation in Grammatikal Framework von Michael Heber Agenda 1. Einführung 2. Grammatical Framework (GF) 3. Kontextfreie Grammatiken und Finite-State Modelle 4. Quellen 2 1.
Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung
Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer
Automatentheorie und formale Sprachen
Automatentheorie und formale Sprachen Wiebke Petersen Wiebke Petersen Automatentheorie und formale Sprachen - WiSe12/13 1 Seminarplan Lektüre: Theoretische Grundlagen der Informatik, Rolf Socher, 2008
Algorithmen & Programmierung. Felder (2) Zeichenketten
Algorithmen & Programmierung Felder (2) Zeenketten Zeenketten Verarbeitung von Textdaten in C In C gibt es keinen vordefinierten Datentyp zur Verarbeitung von Textdaten. Es existiert ledigl ein Datentyp
Berechenbarkeitstheorie 1. Vorlesung
Berechenbarkeitstheorie Dr. Institut für Mathematische Logik und Grundlagenforschung WWU Münster WS 15/16 Alle Folien unter Creative Commons Attribution-NonCommercial 3.0 Unported Lizenz. Zentrale Themen
Information und Produktion. Rolland Brunec Seminar Wissen
Information und Produktion Rolland Brunec Seminar Wissen Einführung Informationssystem Einfluss des Internets auf Organisation Wissens-Ko-Produktion Informationssystem (IS) Soziotechnisches System Dient
Kapitel 5: Syntaxdiagramme und Grammatikregeln
5. Syntaxdiagramme und Grammatikregeln 5-1 Objektorientierte Programmierung (Winter 2010/2011) Kapitel 5: Syntaxdiagramme und Grammatikregeln Syntaxdiagramme Grammatikregeln (kontextfrei) Beispiele: Lexikalische
LanguageTool, eine Stil- und Grammatikprüfung
LanguageTool, eine Stil- und Grammatikprüfung LanguageTool, was ist das? LanguageTool, kurz LT, ist eine OpenSource-Erweiterung für LibreOffice, mit der Grammatik und Stil eines Dokumentes überprüft werden.
Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?
Informationsextraktionssystem ANNIE
Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 10/11 Inhalt 1 Einführung: Informationsextraktion Begriffsklärung eines Informationsextraktionssystems 2 Einführung in Getting Started
2 Sprachliche Einheiten
2 Sprachliche Einheiten Inhalt Semiotische Begriffe Wörter Wortbestandteile Wortzusammensetzungen Wortgruppen Text und Dialog Wort- und Satzbedeutung 2.1 Semiotische Begriffe Semiotische Begriffe Semiotik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
Lexikoneinträge. Aufbau und Erstellung eines Lexikoneintrages
Lexikoneinträge Aufbau und Erstellung eines Lexikoneintrages Inhalt eines Lexikoneintrages Informationen zu Aussprache (für uns weniger relevant) Herkunft (für uns weniger relevant) Semantik Morphologie
6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger
Komprimierung 6. Komprimierung (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Platz brauchen Motivation: beschleunigt Plattenzugriffe oder Datenübertragungen Voraussetzung:
Objektorientierte Programmierung. Kapitel 3: Syntaxdiagramme
Stefan Brass: OOP (Java), 3. 1/31 Objektorientierte Programmierung Kapitel 3: Stefan Brass Martin-Luther-Universität Halle-Wittenberg Wintersemester 2014/15 http://www.informatik.uni-halle.de/ brass/oop14/
Programme erstellen in Java
Programmieren mit Java Modul 0 Programme erstellen in Java Theorieteil Inhaltsverzeichnis 1 Modulübersicht 3 2 Schreiben von Computerprogrammen 3 2.1 Computerprogramme bestehen aus Daten und Instruktionen.......
[Arbeiten mit dem Nvu Composer]
Eine neue Seite erstellen Beim Start des Composers steht automatisch eine neue Composer-Seite zur Verfügung, die direkt verwendet werden kann. Über Datei > Neu > Composer-Seite kann jederzeit eine neue
Einführung in die Computerlinguistik. Syntax II
Einführung in die Computerlinguistik yntax II Hinrich chütze & Robert Zangenfeind Centrum für Informations- und prachverarbeitung, LMU München 18.12.2015 chütze & Zangenfeind: yntax II 1 / 17 Take-away
INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
3.4 Direkte vs. indirekte Interpretation
3 Theorie der λ -Repräsentation 3.4 Direkte vs. indirekte Interpretation In unserer semantischen Analyse natürlichsprachlicher Ausdrücke haben wir bisher die Methode der indirekten Interpretation zugrunde
Definitionen/Vorarbeit zum Thema Java
Definitionen/Vorarbeit zum Thema Java Programmiersprachen: System von Wörtern und Symbolen, die zur Formulierung von Programmen für die elektronische Datenverarbeitung verwendet werden. Arten: z.b. Javascript
Alphabet, formale Sprache
n Alphabet Alphabet, formale Sprache l nichtleere endliche Menge von Zeichen ( Buchstaben, Symbole) n Wort über einem Alphabet l endliche Folge von Buchstaben, die auch leer sein kann ( ε leere Wort) l
Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell
Syntax und Parsing. OS Einblicke in die Computerlinguistik. Philipp Rabe, 13IN-M
OS Einblicke in die Computerlinguistik basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 22. Mai 2014 Ausgangssituation Tokenisierung und Wortarten-Tagging vollendet
Einführung. (Compiler) Prof. Dr. Oliver Braun. Letzte Änderung: :49. Einführung 1/26
Einführung (Compiler) Prof. Dr. Oliver Braun Letzte Änderung: 10.05.2017 15:49 Einführung 1/26 Ein Compiler ist ein Computerprogramm das ein Programm geschrieben in einer Sprache in ein Programm übersetzt
Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Semantik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Semantik Wiederholung Was ist die Semantik und womit beschäftigt sie sich? 3 Was ist die Semantik und womit beschäftigt sie sich?
Fundamentale Ideen der Informatik PH Weingarten Sommersemester 2014 Paul Libbrecht CC-BY
Fundamentale Ideen der Informatik PH Weingarten Sommersemester 2014 Paul Libbrecht CC-BY Vorlesung 6: Repräsentationen Themenkarte Verschlüsselung Netzwerk Versionierung Programmverlauf Java Instruktionen
Ein Fragment von Pascal
Ein Fragment von Pascal Wir beschreiben einen (allerdings sehr kleinen) Ausschnitt von Pascal durch eine kontextfreie Grammatik. Wir benutzen das Alphabet Σ = {a,..., z, ;, :=, begin, end, while, do} und
Satz (Abschluß unter der Stern-Operation)
Satz (Abschluß unter der Stern-Operation) Wenn L eine reguläre Sprache ist, dann ist auch L regulär. Beweis: Es gibt einen NFA M = (Z, Σ, S, δ, S, E) mit L(M) = L. Wir bauen aus diesem NFA nun wie folgt
Die aussagenlogische Sprache
LOGIK I (WS 2015/16) 89 Kapitel 4 Die aussagenlogische Sprache Wir haben bereits Symbole eingeführt, um aussagenlogisch unzerlegbare Aussagesätze zu repräsentieren, nämlich p, q,... Außerdem haben wir
Einführung in die Programmiertechnik
Einführung in die Programmiertechnik Darstellung von Text Plain Text Abstraktion: Text wird durch eine Folge von Symbolen (Buchstaben, Zahlen, Interpunktion) dargestellt Verzicht auf Informationen über
Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Morphologie Wiederholung Aufgabe 1 Was ist Morphologie, Morphem? 3 Aufgabe 1 Was ist Morphologie, Morphem? Teildisziplin der
Einführung in die Programmierung
Einführung in die Programmierung Teil 3: Daten und Algorithmen Prof. Dr. Peer Kröger, Florian Richter, Michael Fromm Wintersemester 2018/2019 Übersicht 1. Datendarstellung durch Zeichenreihen 2. Syntaxdefinitionen
Compiler. Einführung. Prof. Dr. Oliver Braun. Fakultät für Informatik und Mathematik Hochschule München. Letzte Änderung:
Compiler Einführung Fakultät für Informatik und Mathematik Hochschule München Letzte Änderung: 10.05.2017 15:49 Inhaltsverzeichnis Ein Compiler................................... 2 Ein Compiler...................................
Compiler: Einführung
Fakultät für Informatik und Mathematik Hochschule München Letzte Änderung: 10.05.2017 15:49 Inhaltsverzeichnis Ein Compiler................................... 2 Ein Compiler...................................
Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
5.2 Endliche Automaten
114 5.2 Endliche Automaten Endliche Automaten sind Turingmaschinen, die nur endlichen Speicher besitzen. Wie wir bereits im Zusammenhang mit Turingmaschinen gesehen haben, kann endlicher Speicher durch
Psycholinguistik. p. 1/28
Psycholinguistik p. 1/28 Psycholinguistik: Allgemeine Fragen Wie und wo wird die Sprache im Gehirn verarbeitet? Sprachentwicklung 1: Wie erwerben Kinder ihre Muttersprache (Erstpracherwerb)? Sprachentwicklung
Klaus Schild, XML Clearinghouse Aufbau von XML- Dokumenten
Aufbau von XML- Dokumenten Lernziele Wie ist ein XML-Dokument aufgebaut? Was sind Elemente und was sind Attribute? Wann sollten Attribute und wann Elemente verwendet werden? Elemente ist ein Anfangs-Tag
Regular Expressions. Daniel Lutz Was ist eine Regular Expression?
Regular Expressions Daniel Lutz 12.11.2003 1 Was ist eine Regular Expression? Ausdruck, der ein Textfragment beschreibt Eine Regular Expression passt zu einem Textfragment, wenn das Textfragment
Whitepaper. Arbeiten mit Varianten. in eevolution
Whitepaper Arbeiten mit Varianten in eevolution Inhaltsverzeichnis 1 Eine Variante, was ist das?... 3 2 Varianten in eevolution... 4 2.1 Anlage von Varianten... 4 2.2 Anlage von Variantenausprägungen...
Grundlagen der Programmierung 3 A
Grundlagen der Programmierung 3 A Compiler A: Phasen Lexikalische Analyse; Scanner Prof. Dr. Manfred Schmidt-Schauß Sommersemester 2018 Compiler; Übersetzungsprogramme Ein Übersetzer (Compiler) ist ein
Abschnitt 2: Daten und Algorithmen
Abschnitt 2: Daten und Algorithmen 2. Daten und Algorithmen 2.1 Zeichenreihen 2.2 Datendarstellung durch Zeichenreihen 2.3 Syntaxdefinitionen 2.4 Algorithmen 2 Daten und Algorithmen Einf. Progr. (WS 08/09)
LFG-basierter Transfer
Inhaltsverzeichnis 1 2 2 Ein Beispiel 4 3 Strukturaufbau 7 4 Alternative Übersetzungen 8 5 Adjunkte 9 6 Kodeskription 10 http://www.ims.uni-stuttgart.de/ gojunaa/mue_tut.html 1 1 Um einen quellsprachlichen
MODULTEILPRÜFUNG ZUR VORLESUNG,,KORPUSBEARBEITUNG IN DER COMPUTERLINGUISTIK SS 2014 DR. MAXIMILIAN HADERSBECK
MODULTEILPRÜFUNG ZUR VORLESUNG,,KORPUSBEARBEITUNG IN DER COMPUTERLINGUISTIK SS 2014 DR. MAXIMILIAN HADERSBECK KLAUSUR AM 7.7.2014 VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,
Einführung in die Programmiertechnik
2008 Martin v. Löwis Einführung in die Programmiertechnik Darstellung von Text 2008 Martin v. Löwis 2 Plain Text Abstraktion: Text wird durch eine Folge von Symbolen (Buchstaben, Zahlen, Interpunktion)
Übungs- und Praktikumsaufgaben zur Systemprogrammierung Dipl.-Ing. H. Büchter (Lehrbeauftragter) FH-Dortmund WS 2001/2002 / SS 2002
1. Stellen Sie die schrittweise Verbesserung eines Compilers durch das Bootstrap- Verfahren mit Hilfe von T-Diagrammen dar. Gegeben ist ein auf der Maschine M lauffähiger Compiler C 1, der in S geschrieben
Lexikalische Programmanalyse der Scanner
Der Scanner führt die lexikalische Analyse des Programms durch Er sammelt (scanned) Zeichen für Zeichen und baut logisch zusammengehörige Zeichenketten (Tokens) aus diesen Zeichen Zur formalen Beschreibung
Übung Praktische Informatik I
Übung Praktische Informatik I HWS 2008/2009 Benjamin Guthier Lehrstuhl für Praktische Informatik IV Universität Mannheim guthier@pi4.informatik.uni-mannheim.de 24.10.08 6-1 Heutige große Übung Hinweise
Stapelverarbeitung mit Adobe Acrobat Professional. Leibniz Universität IT Services Anja Aue
Stapelverarbeitung mit Adobe Acrobat Professional Leibniz Universität IT Services Anja Aue Stapelverarbeitung Befehlsfolgen werden automatisiert abgearbeitet. Eine Reihe von Aktionen werden manuell gestartet
TnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
Theoretische Informatik I
Theoretische nformatik inheit 3 Kontextfreie Sprachen 1. Kontextfreie Grammatiken 2. Pushdown Automaten 3. igenschaften kontextfreier Sprachen Verarbeitung von Programmiersprachen Was ist das einfachste
Empfehlenswerte Referenzen
Wenn Google etwas nicht finden kann, fragen sie Jack Bauer. ("Fakten über Jack Bauer") Inhalt Empfehlenswerte Referenzen...1 0 Wozu reguläre Ausdrücke?...1 1 Die Elemente regulärer Ausdrücke...2 2 Ein
Notensatz mit Freier Software
mit Freier Software Edgar Fast Edi Hoffmann Community FreieSoftwareOG kontakt@freiesoftwareog.org 30. Juli 2017 Was bedeutet das eigentlich? 2 / 20 Was bedeutet das eigentlich? Notensatz bezeichnet (analog
Vorlesung Morphologie Flexion
Vorlesung Morphologie 13.6. - Flexion Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2008 Vertretung: Hagen Hirschmann Flexion Inhalte heute Flexionskategorien & Paradigmata Nomen Adjektive
Einführung. Gegenstandsbereich der Syntax. Ansatzabhängigkeit der syntaktischen Beschreibungen. Grundlegende Unterscheidungen: Wörter und Verwandtes
Einführung Gegenstandsbereich der Syntax Ansatzabhängigkeit der syntaktischen Beschreibungen Grundlegende Unterscheidungen: Wörter und Verwandtes Allgemeine Syntax vs Syntax des Deutschen Idiolekte und
5 Benutzungsoberfläche
5 Mit Ausnahme der in Kapitel 4.1 beschriebenen ÜNs wurde das Verfahren zur Transformation von Hauptansprüchen als JAVA-Anwendung implementiert. Die Anwendung, genannt ClaimTransformer, umfasst zusätzlich
Spezifikationen für die Nutzung der Webanwendung (inkl. CSV/TXT-Datei) für Messstellen/Behörden
Spezifikationen für die Nutzung der Webanwendung (inkl. CSV/TXT-Datei) für Messstellen/Behörden Vorgeschriebener Zeichensatz für die Webanwendung... 1 Verwendung von CSV/TXT-Dateien... 2 Erlaubte Formate
OpenType Schriftarten. Windows. Will Software
OpenType Schriftarten Windows Will Software Inhalt Installation in Windows... 4 OpenType Schriftformat... 5 Schriftauswahl in Word... 6 Die unterschiedlichen Grafiken... 11 Geformte Buchstaben... 15 Deinstallation...
KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie
KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil
Zuerst wird die Bedingung ausgewertet. Ist sie erfüllt, wird der Rumpf des while-statements ausgeführt. Nach Ausführung des Rumpfs wird das gesamte
Zuerst wird die Bedingung ausgewertet. Ist sie erfüllt, wird der Rumpf des while-statements ausgeführt. Nach Ausführung des Rumpfs wird das gesamte while-statement erneut ausgeführt. Ist die Bedingung
9 Theoretische Informatik und Compilerbau
9 Theoretische Informatik und Compilerbau Theoretische Informatik und Mathematik schaffen die Basis für viele der technischen Entwicklungen, die wir in diesem Buch besprechen. Die boolesche Algebra (S.
3 Aussagenlogik I - die Sprache AL
Seminar: Einführung in die Logik 1/5 3 Aussagenlogik I - die Sprache AL 1. Formale Sprachen: Die formalen Logik-Sprachen sollen folgende Bedingungen erfüllen: Sie sollen alle und nur die Argumente unserer
Theoretische Informatik I
Theoretische Informatik I Einheit 2.5 Grammatiken 1. Arbeitsweise 2. Klassifizierung 3. Beziehung zu Automaten Beschreibung des Aufbaus von Sprachen Mathematische Mengennotation Beschreibung durch Eigenschaften