fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken



Ähnliche Dokumente
Grundbegriffe der Informatik

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Formeln. Signatur. aussagenlogische Formeln: Aussagenlogische Signatur

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Lehrer: Einschreibemethoden

1 topologisches Sortieren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Informationsblatt Induktionsbeweis

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Die Post hat eine Umfrage gemacht

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

Codes und Informationsgehalt

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Leichte-Sprache-Bilder

Was meinen die Leute eigentlich mit: Grexit?

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

e-books aus der EBL-Datenbank

4.1 Wie bediene ich das Webportal?

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Arbeiten mit UMLed und Delphi

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Einführung in. Logische Schaltungen

Semantik von Formeln und Sequenzen

Professionelle Seminare im Bereich MS-Office

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Und im Bereich Lernschwächen kommen sie, wenn sie merken, das Kind hat Probleme beim Rechnen oder Lesen und Schreiben.

Datenbanken Microsoft Access 2010

Tevalo Handbuch v 1.1 vom

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Punkt 1 bis 11: -Anmeldung bei Schlecker und 1-8 -Herunterladen der Software

Funktionsbeschreibung. Lieferantenbewertung. von IT Consulting Kauka GmbH

Installation des Authorware Webplayers für den Internet Explorer unter Windows Vista

trivum Multiroom System Konfigurations- Anleitung Erstellen eines RS232 Protokolls am Bespiel eines Marantz SR7005

Serien- mit oder ohne Anhang

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Monatstreff für Menschen ab 50 Temporäre Dateien / Browserverlauf löschen / Cookies

Drucken von Webseiten Eine Anleitung, Version 1.0

Binäre Suchbäume (binary search trees, kurz: bst)

Beispiel Shop-Eintrag Ladenlokal & Online-Shop im Verzeichnis 1

schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG mitp/bhv

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

EASYINSTALLER Ⅲ SuSE Linux Installation

Kurzeinstieg in VR-Ident personal

Erweiterungen Webportal

Anleitung für die Registrierung und das Einstellen von Angeboten

Professionelle Seminare im Bereich MS-Office

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Konzepte der Informatik

Alle gehören dazu. Vorwort

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Erfüllbarkeit und Allgemeingültigkeit

MPDS4 EXAMPLE DATENBANK

Eine Anwendung mit InstantRails 1.7

Anleitung zum Download und zur Bedienung des Tarifbrowsers für Mac OSX und Safari / Mozilla Firefox

Wir machen neue Politik für Baden-Württemberg

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Anleitung für die Version von online 1. Schritt: Rufen Sie die Website auf...

Gratis Excel SVERWEIS Funktions-Anleitung, Tutorial, ebook, PDF-E-Book

2 Wie sicher ist mein Passwort? *

Anwendungsbeispiele Buchhaltung

Platinen mit dem HP CLJ 1600 direkt bedrucken ohne Tonertransferverfahren

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Loggen Sie sich in Ihrem teamspace Team ein, wechseln Sie bitte zur Verwaltung und klicken Sie dort auf den Punkt Synchronisation.

Anwendungsbeispiele Buchhaltung

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Was bisher geschah. Aufgaben: Diagnose, Entscheidungsunterstützung Aufbau Komponenten und Funktion

Nutzung des Retain-Archivs

Grundbegriffe der Informatik

Also kann nur A ist roter Südler und B ist grüner Nordler gelten.

Terminabgleich mit Mobiltelefonen

Webalizer HOWTO. Stand:

ANLEITUNG EBOOKS. 1. Der Kauf von ebooks über den Onlineshop

Nach der Anmeldung im Backend Bereich landen Sie im Kontrollzentrum, welches so aussieht:

Erstellen einer in OWA (Outlook Web App)

Die Invaliden-Versicherung ändert sich

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Also heißt es einmal mehr, immer eine eigene Meinungen bilden, nicht beeinflussen lassen, niemals von anderen irgend eine Meinung aufdrängen lassen.

Grundlagen der Theoretischen Informatik, SoSe 2008

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Update-Anleitung für SFirm 3.1

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Adobe Photoshop. Lightroom 5 für Einsteiger Bilder verwalten und entwickeln. Sam Jost

Partnerportal Installateure Registrierung

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

mit dem TeXnicCenter von Andreas Both

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

TeamSpeak3 Einrichten

Transkript:

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken SFB 441, Universität Tübingen

Syntaktisch annotierte Baumbanken Ursprünglich: Morphosyntaktische Tags (POS) Anreicherung mit syntaktischen Informationen Vollständige syntaktische Analysen Komplexere Strukturen als echte Bäume: Unverbundene Teile, sekundäre Relationen

Beispiele für Syntaktisch Annotierte Baumbanken Penn Treebank French Treebank (Paris) British National Corpus NEGRA Corpus (Saarbrücken) TIGER Corpus (Saarbrücken, Stuttgart) DeReKo (Mannheim, Stuttgart, Tübingen) Tübingen Treebanks (Verbmobil, TAZ) viele weitere...

Abfrage von Baumbanken Beim Stellen einer Abfrage besteht die Aufgabe nicht darin, ein paar Instanzen eines bestimmten linguistischen Phänomens zu finden. Die Aufgabe ist vielmehr, alles uninteressante herauszufiltern. Eine Antwortmenge zu erhalten, die beinhaltet, wonach man sucht, ist trivial. Eine Antwortmenge zu erhalten, die beinhaltet, wonach man sucht, aber auch so klein und frei von Müll wie möglich ist, ist sehr schwierig.

Abfrage von Baumbanken (Einige) Baumbanken bieten reiche syntaktische Annotationen. Aber Antwortmengen sollen so restingiert wie möglich sein. Also sollten Abfragesprachen eine große Ausdrucksmächtigkeit besitzen. Wir schlagen volle Prädikatenlogik erster Stufe als Abfragesprache vor.

Beispielbaum Ein Beispielbaum aus der Tübinger Baumbank des Gesprochenen Deutschen. SIMPX 507 VF LK MF 504 505 506 OA HD ON MOD NX VXFIN NX ADVX 500 501 502 503 HD HD HD HD das PDS schaffen 0 1 2 3 4 VVFIN wir PPER nicht PTKNEG. $.

Abfragesprache von fsq LISP-ähnliche Syntax Alle Teilformeln sind geklammert. Der Kopf steht immer links. Variablen (x, y, z, etc.) repräsentieren Knoten in einem Baum. Atomare Formeln drücken die syntaktische Annotation eines Knotens oder eine Relation zwischen zwei Knoten (wie z.b. Dominanz) aus. Komplexe Formeln erlauben boolsche Kombinationen von Formeln und Quantifikation.

Atomare Formeln: Knotenlabel (tok x T) Knoten x hat Token (Wort) T. (lem x L) Knoten x hat Lemma L. (cat x C) Knoten x ist von der Kategorie (hat POS Tag) C. (mor x M) Knoten x hat morphologisches Tag M. (fct x F) Knoten x is von der grammatischen Funktion (hat Kantenlabel) F.

Atomare Formeln: Knotenlabel mir Regulären Ausdrücken (tokr x T) Token von Knoten x paßt auf RA T. (lemr x L) Lemma von Knoten x paßt auf RA L. (catr x C) Kategorie von Knoten x paßt auf RA C. (morr x M) Morpholog. Tag von Knoten x paßt auf RA M. (fctr x F) Funktion von Knoten x paßt auf RA F.

Atomare Formeln: Knotenrelationen (> x y) Knoten x ist die Mutter von y. (>> x y) Knoten x dominiert y. Reflexiv-transitiver Abschluß von > (>+ x y) Knoten x dominiert y echt. Transitiver Abschluß von > (. x y) Knoten x steht unmittelbar links von y. (.. x y) Knoten x steht links von y Reflexiv-transitiver Abschluß von.

Atomare Formeln: Knotenrelationen (ref x y) ref-sekundäre Kante von x nach y (= x y) Knoten x und y sind gleich. (!= x y) Knoten x und y sind verschieden. (sent Exp) Satz (Tokensequenz) paßt auf RA Exp. (Einzige atomare Formel ohne Variablen)

Komplexe Formeln (! ϕ) Negation von ϕ (& ϕ 1... ϕ n ) Konjunktion ( ϕ 1... ϕ n ) Disjunktion (-> ϕ ψ) Implikation (E x ϕ) Existentielle Quantifikation (A x ϕ) Universelle Quantifikation

Semantik Eine Abfrage ist ein erststufiger Satz (Formel, in der alle Variablen abquantifiziert sind). Dieser Satz kann wahr oder falsch sein für eine endliche Struktur, die einen Baum repräsentiert. Die Antwort auf eine Abfrage ist die Menge der Strukturen, für die die Abfrage wahr ist. Also: Klassische modelltheoretische Semantik.

Architektur von fsq fsq besteht aus vier Komponenten: Initialisierungskomponente Suchmaschine Grafische Benutzeroberfläche Baumbankenbrowser fsq ist implementiert in Java (JDK 1.5). Es verwendet die Graphikbibliothek yfiles von yworks. Plattformunabhängige Implementation, die unter Linux, Solaris, Windows, and Mac OS X läuft. (Zuletzt getestet unter Linux und Windows.)

Initialisierung Baumbankformat für fsq: NEGRA Exportformat entwickelt an der Universität Saarbrücken Datenaustauschformat reiner ASCII-Text, für Menschen lesbar ungeeignet für schnelles Suchen Daher: Präkompilationsschritt notwendig.

Vorkompilierung Transformation des NEGRA Exportformats in eine Binärrepresentation für schnelles Suchen. Muß pro Baumbank nur einmal durchgeführt werden. Jeder Baum wird einzeln transformiert. Binäre Relationen (Dominanz, Links-Rechts-Ordnung, sekundäre Relationen) werden in zweidimensionale Arrays übersetzt. Unäre Relationen (Kategorien, Funktionen, etc.) werden in eindimensionale Arrays übersetzt.

Suchmaschine Parst eine eingegebene Abfrage. Wertet die geparste Abfrage aus. Die Abfrage wird auf jedem Baum einzeln ausgewertet. Abfragen sind (als Formeln) rekursiv definiert. Die Auswertung einer Formel auf einem Baum erfolgt durch Rekursion über den Aufbau der Abfrage.

Grafische Benutzeroberfläche Hauptaufgabe: Unterstützung des Benutzers beim Erstellen von Abfragen. Außerdem: Abfragen auswählen, editieren, abschicken, speichern und laden. Auswahl einer Baumbank.

Grafische Benutzeroberfläche

Baumbankbrowser Zeigt Treffer einer Abfrage an. Sobald die Suchmaschine den ersten Treffer findet, öffnet sich der Baumbankenbrowser und zeigt ihn an. Man kann die bereits gefundenen Treffer sich sofort ansehen. Die Suche läuft im Hintergrund weiter. Weitere Treffer werden an den Browser gemeldet. Der Baumbankbrowser kann auch die ganze Baumbank anzeigen. Optionen: Zoom, Druck, Export

Baumbankbrowser

Ausdrucksstärke der Abfragesprache Das Merkmal, das die Abfragesprache von fsq auszeichnet, ist beliebige Quantifikation von Knoten. Diese wird gebraucht zur Spezifikation von komplizierteren Beziehungen zwischen Knoten in einem Baum.

Überlegungen zur Komplexität Beim implementierten Algorithmus ist die Suchzeit polynomial in der Größe eines Baums. Genauer, wenn n die Anzahl der Knoten in einem Baum ist und k die Quantorentiefe der Abfrage, dann benötigt die Auswertung der Abfrage auf diesem Baum (maximal) n k Schritte. Bei komplizierten Abfragen kann das zu längeren Suchzeiten führen. Aber so komplizierte Abfragen sind wahrscheinlich selten. Erfahrungswert: Suchzeiten für Abfragen bis zur Quantorentiefe 4 sind noch akzeptable.

Intelligente Reformulierungen von Abfragen Große Quantorentiefe kann häufig durch geschickte Umformulierung der Abfrage vermieden werden. Ein Beispiel: Suche nach den Token heute, Treffen, in, Hannover. Naive Abfrage: x y z w( (tok x heute) (tok y Treffen) (tok z in) (tok w Hannover)) Quantorentiefe: 4 Bessere Abfrage: ( x(tok x heute)) ( y(tok y Treffen)) ( z(tok z in)) ( w(tok w Hannover)) Quantorentiefe: 1

Schluß fsq ist ein mächtiges Abfragewerkzeug. Es kann zur Abfrage beliebiger endlicher Strukturen verwendet werden, nicht nur für echte Bäume. Die Abfragesprache erststufige Logik ist recht ausdrucksstark. Sie hat eine etablierte, gut verstandene Semantik. Nach Kenntnis des Autors ist fsq eines der mächtigsten Abfragewerkzeuge. Die Suchzeiten sind im allgemeinen kurz.

Verfügbarkeit fsq ist für akademische Zwecke frei verfügbar. fsq Webseite: http://tcl.sfs.uni-tuebingen.de/fsq