Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Ähnliche Dokumente
Maschinelle Übersetzung

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Semantik. Sarah Bosch,

Lexikalische Semantik und semantische Lexika. Manfred Pinkal PJS Word Sense Disambiguation SS 2004

Semantik. Ending Khoerudin Deutschabteilung FPBS UPI

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

PS Lexikalische Semantik und Korpuslinguistik. Ein paar Grundlagen. Andrea Kowalski

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Seminar: Formale Begriffsanalyse Verbände, Begriffsordnung und Begriffsverbände

Seminar: Formale Begriffsanalyse Begriffsverbände

Maschinelle Übersetzung

Seminar: Formale Begriffsanalyse Kurzeinführung in die FBA

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Einführung Konzepte und Begriffe Ähnliche Projekte Arbeiten mit WordNet

Über Struktur Relationen Anwendungen WORDNET. 10. Juli Magdalena Soyka, Christoph Berkholz WORDNET

Wiederholung. Basiswissen für einen Beteiligungsnachweis. Wiebke Petersen Formale Begriffsanalyse SoSe06

Studienprojekt TaxoSearch Spezifikation

WordNet Eine elektronische lexikalische Datenbank

WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester

Vorbereitung. Kataloge und Datenbanken. Zugang

NLP Eigenschaften von Text

Ziele und Herausforderungen

Grundlagen der Mengenlehre, Eigenschaften von Relationen. Grundlagen der Ordnungs- und Verbandstheorie. bereinigte und reduzierte Kontexte

EBERHARD KARLS UNIVERSITÄT TÜBINGEN. Claudia Kunze. Computational Lexicography. Lexikalische Ressourcen

Grundlegendes zur Semantik 4. Januar 2005

Formale Begriffsanalyse

Computerlexikographie-Tutorium

Formaler Kontext. Ein formaler Kontext (G, M, I) besteht aus einer Menge. Man nennt die Elemente von G die Gegenstände, die von. hat das Merkmal m.

Agenda. Seminar: Informationsstrukturierung. SS 2007 Ulli Waltinger. Lexical Chaining Textkategorisierung und Lexical Chaining

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Vorbereitung. Kataloge und Datenbanken. Zugang

Einführung in die Computerlinguistik. Semantik

Semantik & Pragmatik. 17. April 2007

Semantic Relations and User Interests

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Sprache systematisch verbessern. Eugen Okon

Susanne Kollmann Ines Zwanger

Nataša Ćorić Gymnasium Mostar Bosnien und Herzegowina

Ordnungen und Verbände

Terminus Sprache, Phonologie und Grammatik

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

Thea Schippan. Lexikologie der deutschen Gegenwartssprache

GÜNTHER ÖLSCHLÄGER 3.3 MEHRDEUTIGKEIT SPRACHLICHER AUSDRÜCKE

Finden Sie eine Relation R und eine Menge A so dass

Übersicht über die Tests

Einführung in die Computerlinguistik: Semantik. Manfred Pinkal / Sebastian Pado

Using Lexical Semantic Resources to Extract Product Profiles from Text Catalogues. DGFS 06, Bielefeld, 23. Februar, 12:00 Uhr

Mapping the Words 1 / 15

Schuljahrgang 8. Arbeit mit Medien. Bibliotheksbestand, Wörterbücher. 1. Gesamtstruktur des Trainings. 2. Aufgabenblatt Besuch der Stadtbibliothek

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *

Terminologien, Klassifikationen und Nomenklaturen für die medizinische Dokumentation und Interoperabilität

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils

Einführung in die portugiesische Sprachwissenschaft

Formale Begriffsanalyse

Ulrich Apel WaDokuJT-Projekt

Semantik. Sebastian Löbner. Eine Einführung. Walter de Gruyter Berlin New York 2003

Semantik. Volmert: S , Kessel/Reimann: S , Dr. Marina Iakushevich

Fit für die Projektarbeit. Literaturrecherche leicht gemacht!

Ressourcen in den GSHS... am Beispiel LEXUS

Arten von formalen Sprachen

Bachelorstudiengang Übersetzen 1/6 Kurs Recherchieren 1

Modul 7.2: Pragmatik I Semantik vs. Pragmatik

Maschinelle Übersetzung

Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Basiert auf: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.

Miklós Pálfy. Begriff und Bedeutung in der Artikelstruktur eines neuen Wörterbuches (Französisch Ungarisch)

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

DELA Wörterbücher ===========================================================

Digitale Bearbeitung der textuellen Daten

6 Aneignung von Begriffen 6.1 Theoretische Grundlagen

Automatisches Verstehen gesprochener Sprache

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Geschichte der Psycholinguistik

Geschichte der Psycholinguistik

Polysemie zwischen Homonymie und Generalität

1. Benutzen Sie zweisprachige Wörterbücher mit Slowenisch und Deutsch?

Kontrastive Linguistik und Lexikographie XII

Einführung in WordNet 2.0. Vortrag im Rahmen des Proseminars Morphologie, Lexikographie und Computerlexikographie am von Michaela Geierhos

Teil 3. Grundlagen der Datenbankrecherche. Universitätsbibliothek Chemnitz - AG Informationskompetenz

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche

7 Gültigkeit und logische Form von Argumenten

Semantik und Pragmatik

Semantik II: Bedeutungsrelationen

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Vorlesung Software-Reengineering

Automatentheorie und formale Sprachen

Einführung Computerlinguistik. Konstituentensyntax II

Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.

Bedeutungsbeziehungen zwischen Wörtern

bizhub Evolution TRANSLATE bizhub Evolution Bedienungsanleitung Version: 1.1

Universität Hamburg Institut für Germanistik I Seminar Ib Wort, Name, Begriff, Terminus Sommersemester 2006 (Prof. Dr. Walther v.

Lexikologie der deutschen Gegenwartssprache. Herbstsemester 2011/2012 Assist. Daumantas Katinas

Visualisierung in Informatik und Naturwissenschaften

Fit für die Projektarbeit. Literaturrecherche leicht gemacht!

Transkript:

Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1

Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse und Simullda Interlingua Probleme und Schwierigkeiten 2

Background Simullda ist ein Projekt der Universität Utrecht und des Opleideninstituut CKI Teilgebiete aus der Philosophie (Logik), Linguistik, Psychologie und Informatik Multidisziplinärer Charakter 3

Background 5000-6000 Sprachen: Für viele Sprachpaare gibt es kein zweisprachiges Lexikon Eine Datenbank, die Sprachpaare direkt übersetzt ist von Vorteil Deskriptive Übersetzung soll ermöglicht werden, wo die Ausgangssprache keine Bedeutung in der Zielsprache hat. 4

Begriffsklärung Homonymie Wortform hat verschiedene Bedeutungen, die nicht miteinander in Beziehung stehen Polysemie Wort hat verschiedene Bedeutungen, zwei Worte müssen aber miteinander verwandt sein gleiche etymologische Wurzel oder semantisch miteinander in Verbindung stehen/ Homonymie und Polysemie sind schwierig auseinander zu halten Synonym:Wort, dass die gleiche Bedeutung wie ein anderes Wort hat 5

Begriffsklärung Hyponym: Unterbegriff eines Begriffs Hyperonym: Oberbegriff eines Begriffs Meronym: Teil- von- Beziehung Antonymie: Gegenwörter--> Wörter die Gegensätze beschreiben 6

Multilinguale Datenbanken Interlingua: neutrale Zwischensprache, die grammatische Informationen des Quelltextes beinhaltet. Grammatische Informationen der Zielsprache wird hieraus erzeugt Hilfreich bei komplexen Ausdrücken 7

Multilinguale Datenbanken Repräsentation von verschiedenen Spezifika Formale Begriffsanalyse Ziel war es ein System zu entwickeln, dass die Möglichkeit hat für jedes Sprachpaar eine Übersetzung bereitzustellen, jedoch ohne zweisprachige Lexika zu entwickeln 8

Multilinguale Datenbanken Parallele Wortlisten Eine Ausgangssprache wird in eine Zielsprache übersetzt, bzw. in mehrere Zielsprachen Problem: Lexical gaps Es gibt nicht alle Bedeutungen in der Zielsprache Bank banque (fr)/ rive(fr). 9

Multilinguale Datenbanken Verlinkung über synonyme Wörter kann nur funktionieren, wenn es eins zu eins Übersetzungen gibt Anforderungen: Es sollten Wörter und Bedeutungen auseinander gehalten werden können 10

Multilinguale Datenbanken Beispiel OMBI OMBI: 11

WordNet Organisiert mittels Bedeutungen Bedeutung eines Wortes entsteht im Zusammenhang mit einem anderen Wort Beziehung der Wörter untereinander Arbeit mit Synsets ( ein oder mehrere Synonyme) 12

WordNet 13

Maschinelle Übersetzung Simullda : Human consumption approaches lexikographische Informationen für den Benutzer Andere Systeme arbeiten mittels maschinellem Gebrauch Auch bei Simullda sind Elemente der maschinellen Übersetzung zu finden, jedoch nicht ausschließlich 14

Maschinelle Übersetzung Formale Repräsentation von Wortbedeutungen, keine Definitionen Informationen die die Problematik des Übersetzens betreffen Keine Ober- und Unterbegriffe Beschreibung der Wortart 15

Simullda Simullda soll lexikographische Information besser organisieren Mehr Informationen zur Bedeutung eines Wortes sollen angegeben werden, verschiedene Bedeutungsunterschiede zwischen den Sprachen sollen klargestellt werden Mittels Formaler Begriffsanalyse 16

Formale Begriffsanalyse und Simullda Kontext besteht aus Gegenständen und Merkmalen und einer Relation zwischen diesen Gegenstände Lemmata Merkmale können beliebig festgelegt werden nach Vorgabe der Definitionen einsprachiger Wörterbücher In der Regel von einem Lexikographen festgelegt 17

Beispiel eines Kontexts 18

Formale Begriffsanalyse und Simullda Hasse Diagramme Vorteil: informativere Struktur gegenüber einer Kreuztabelle Übersichtlicher als Tabellen Übersetzungen befinden sich außerhalb des Hassediagramms und sind über Linien mit den jeweiligen Gegenständen bzw. Merkmalen verbunden 19

Beispieldiagramm 20

Formale Begriffsanalyse und Simullda Merkmale von Simullda sollen auf semantischer Ebene angesiedelt sein und nah an Wörterbuchdefinitionen sein lexikographischer Kontext Im Idealfall wird die Bedeutung der Zielsprache parallel zur Ausgangssprache gefunden 21

22

Formale Begriffsanalyse und Simullda Language Boxen FBA Gitter soll sprachunabhängig gemacht werden Wortformen sollen in language boxes geschrieben werden Bedeutungen sind mit den verschiedenen Sprachen verbunden, werden aber nicht mit ihnen identifiziert Wortformen sind nicht ins Diagramm integriert sondern befinden sich außerhalb Merkmale müssen sprachunabhängig sein groß, klein, jung etc. 23

Language Boxes 24

Formale Begriffsanalyse und Simullda Lexical Gaps Lexical Gaps: Wenn es in der Zielsprache keine Übersetzung für einen bestimmten Ausdruck in der Ausgangssprache gibt Bsp.: Colt englisch männliches Fohlen im Französischen gibt es hierfür keine Entsprechung Ersatz: Colt ist Unterbegriff von Foal und Foal im Französischen poulain Colt besitzt die Merkmale: young and male Male auf Französische: mâle colt = mâle poulain 25

Formale Begriffsanalyse und Simullda Lexical Gaps Um ein Lexical Gap zu füllen muss ein Oberbegriff gewählt werden und mit den Merkmalen des Begriffs der Ausgangssprache angereichert werden Es gibt nicht nur ein Ergebnis Wichtig ist, dass das Ergebnis richtig ist 26

Colt als Lexical Gap 27

Interlinguale Bedeutung Wortbedeutung Hinter jedem Wortsinn steckt eine Idee Begriff Bei Simullda geht es um formale Begriffe nicht um Begriffe Paare von interlingualer Bedeutung und definierten Merkmalen 28

Interlingua Verschiedene Sprachen können die gleiche interlinguale Bedeutung ausdrücken Bedeutungen sind interlingual und sprachenunabhängig Nicht alle interlingualen Bedeutungen müssen in allen Sprachen lexikalisiert werden ( Lexical gaps) Es gibt auch Sprachen, die nicht miteinander in Zusammenhang gebracht werden können 29

Zwei Sprachen, die nicht miteinander in zusammenhang stehena 30

Interlingua Simullda ist nur effektiv, wenn es genügend Überlappungen zwischen Sprachen gibt Es sollten jedoch auch Lexical Gaps auftreten Interlingua im Bezug auf Simullda Begriffsverband Lexikalisierung findet in den Word boxes statt 31

Probleme und Schwierigkeiten 1. Durch kulturell bedingte Unterschiede kann eine Übersetzung schwierig werden Lunch vs. Collazione Simullda basiert auf der Analyse des Inhalts einsprachiger Wörterbücher Kulturelle Unterschiede können müssen aber nicht zu verschiedenen Übersetzungen führen 2. Synonyme: können lexikalisch variieren In Simullda handelt es sich um Synonyme, wenn sie dieselbe interlinguale Bedeutung beschreiben Ein gutes Wörterbuch muss damit umgehen können 32

Aufbau 33