Übung 5 Vorbereitung Öffnen Sie einen Texteditor, z.b. Word, Emacs, Textedit etc. und legen Sie Ihre Antwortdatei an. Der Name der Antwortdatei sollte nach folgendem Schema aufgebaut sein: KL_ueb5_<der erste Buchstabe ihres Vornamen + die ersten 3 Buchstaben ihres Nachnamens> Beispiel: meine eigene Datei würde so aussehen: KL_ueb5_hzin.doc Bitte, wenn möglich, als pdf-datei einreichen Zusätzlich benötigen Sie für Übung 5 das Tool TIGERSearch. http://www.ims.uni-stuttgart.de/projekte/tiger/tigersearch Falls Sie nicht im Pool arbeiten, können Sie sich das Tool auf dem Rechner installieren (falls Sie privat auf Mac OS arbeiten, wenden Sie sich bitte an mich, da die öffentliche Version Probleme bei der Installation bereitet): http://www.ims.uni-stuttgart.de/projekte/tiger/tigersearch/download/ Im Pool G209: Arbeiten Sie in Zukunft im Verzeichnis: /Users/cluser/desktop/Korpuslinguistik/ /Users/cluser/Korpuslinguistik/ heute: im Unterverzeichnis TIGERSearchTools. Sie können sich zum Verzeichnis über den Finder klicken, um die Dateien anzuschauen. Zusätzlich müssen Sie in der Shell (im Terminal ) in dieses Verzeichnis wechseln: 1 Ziel Sie sollen sich mit dem Tool TIGERSearch vertraut machen, indem Sie nach lexikalischer und syntaktischer Information suchen. 2 Starten des Programms Starten von TIGERSearch (Groß- und Kleinschreibung beachten! ) cd /Users/cluser/desktop/Korpuslinguistik/TIGERSearchTools [enter] cd /Users/cluser/Korpuslinguistik/TIGERSearchTools [enter] ( change directory )./runtsearch.sh 3 Hilfe [Kommentar: Sie müssen nicht den ganzen Pfad eintippen, sondern können nach Beginn des Namens mit der Tabulatortaste den restlichen Namen automatisch erweitern lassen zumindest insofern der Buchstabenstring eindeutig auf den Namen verweist und es keine gleich lautenden Verzeichnisse oder Dateien gibt.] Im Unterverzeichnis "doc" finden Sie Dokumente zum TIGER-Korpus Zum Suchtool: Eingebaute Hilfe: menu on top of TIGERSearch window (-> query language quick 1
reference) Online: http://www.ims.uni-stuttgart.de/projekte/tiger/tigersearch/manual_html.html 4 Korpus wählen Korpus öffnen: menu top left > Corpus > View Corpora öffnen Sie das TIGER-Korpus: Tiger2.1 (double click) Lesen Sie die Dokumentation: Documentation > Detailed view 1. Wie viele Token umfasst das Korpus? Wie viele Sätze? 2. Wie lautet das Label für Nominalphrase? (= Kategorie) 3. Wie lautet das Label für Subjekt (= Kantenlabel / edge label) 5. Wie lautet das Label für Genitivobjekt? (= Kantenlabel / edge label) 5 Korpus erkunden Erkunden Sie das Korpus: top left menu > Corpus > Explore (Entweder erscheint ein TIGERGraphViewer Fenster oder es erscheint ein Icon am unteren Ende des Schirms) 6 Fingerübung Wechseln Sie das Korpus: Corpora > view corpora > DemoCorpora > German > TIGERsampler Starten Sie das grafische Interface: top of right window > graphical mode. Hilfe finden Sie in : top menu > help > Graphical Query editor Das Suchfenster besteht aus zwei Regionen: Die Wortregion, welche Informationen ueber die Wortform ( word ), die Wortart ( pos ), das Lemma ( lemma ) und die Morphologie ( morph) beinhaltet, sowie die Region der nicht-terminalen Annotation, bei der jeder Knoten Informationen über die Kategorie ( cat ) bereitstellt. 1. Suche nach einem Wort Klick in die Wortregion: ein kleines Fenster erscheint (Löschen: Klick mit der rechten Maus), Doppelklick ins innere Feld: tippen Sie ein: einer. Klicken Sie auf Suche (in der rechten unteren Ecke). Erkunden Sie dann die Suchergebnisse im TIGERGraphViewer. Was ist der Unterschied zwischen matching graphs und matching subgraphs? Nutzen Sie nun die Übersetzung in die textuelle Suchanfrage, um deren Syntax zu lernen: Klicken Sie auf der Menüzeile oben im Graphical Mode -Fenster auf das Icon, das ganz rechts steht. ( switch to textual mode ) Speichern Sie die textuelle Suchanfrage als Bookmark : rechter Mausklick in Textual Mode window > Bookmarks > Add Bookmark to Main Group. Versuchen Sie der abgespeicherten Anfrage einen sprechenden Namen zu geben, damit Sie sie ggf. leicht wieder finden können. Wichtig: Die Suchanfrage entspricht in weiten Teilen der Syntax von CQP, die Sie bereits kennen. Ausnahme: Wenn Sie einen regulären Ausdruck verwenden, müssen Sie den Anfragestring in zwei Slashes setzen. Beispiel: cqp: [word="hase"] und [word="hase.*"] TIGERSearch: [word="hase"] ABER [word=/hase.*/] 2
Suche mit Hilfe von regulären Ausdrücken klicken Sie auf den schwarzen Pfeil neben dem Gleichheitszeichen > is a regularexpression Geben Sie den regulären Suchausdruck ein: (ge)?habt haben? has?t Überlegen Sie, erst trocken nach welchen Wortformen gesucht wird, starten Sie dann die Suche. Überprüfen Sie nun wieder die Syntax der textuellen Eingabe. und speichern Sie auch diese Suchanfrage als Bookmark. Textual Mode window Jeder Knoten im Baum wird durch ein Paar eckige Klammer [ ] repräsentiert. Suchbedingungen: Bedingungen an einen einzelnen Knoten: 1. Finden Sie alle Wörter, die mit kleingeschriebenem 'a' beginnen und die einen verbalen POS-Tag tragen. Speichern Sie die Anfrage als Bookmark. [word=/a.*/ & pos=/v.*/] 2. Finden Sie alle Worte, die NICHT mit einem kleingeschriebenen 'a' beginnen, aber die einen verbalen POS-Tragen. Speichern Sie auch diese Anfrage. [word=/[^a.*] & pos=/v.*/] [word=/[^a].*/ & pos=/v.*/] Bedingungen über zwei Knoten Basisrelationen: Dominanz (>) und Präzedenz (.) 3. Finden Sie alle Bäume, bei denen eine NP unmittelbar einen Eigennamen dominiert. [cat="np"] > [pos="ne"] 4. Finden Sie alle Bäume bei denen eine NP (mittelbar) einen Eigennamen dominiert. [cat="np"] >* [pos="ne"] 5. Vergleichen Sie die Ergebnisse. 6. Finden Sie alle Bäume, in welchen 'ist' unmittelbar einem Artikel im Genitiv vorangeht. [word= ist ].[pos= ART & ] [word="ist"].[pos="art"] 8. Vergleichen Sie die Ergebnisse Bedingungen über mehr als zwei Konten: Konjunktion und Variablen. Beim Testen auf mehr als eine Relation: Verknüpfung der Einzelbedingungen mit '&'. Wenn man mehrfach auf den selben Knoten referiert: Verwendung von Variablen: '#name' 9. Finden Sie alle Bäume, die eine NP enthalten, die unmittelbar einen Artikel, ein Adjektiv und ein (normales) Nomen dominieren. #1:[cat="NP"] >[pos="art"] & #1 > [pos=/adj.?/]& #1 > [pos="nn"] 3
Hilfreiche Zusatzfunktionen Lexical Statistics Alle Knoten, auf die mit Variablen referiert wird, können quantitativ ausgewertet werden. Defnieren Sie Variablen für alle terminalen Knoten: #1:[cat="NP"] > #2:[pos="ART"] & #1 > #3:[pos=/ADJ.?/] & #1 > #4:[pos= NN ] Top left menu > Query > Statistics Click in field below Feature 1 > choose #2 Click in field below #2 > choose word Top menu > Add Repeat the last steps for feature #3 and #4. (Top or bottom menu) > Build Inspect the results Change the representation: top menu > Frequency and inspect the results. Export the statistics: top menu Export (choose e.g. text format) Export von Suchergebnissen (steht in der Mac-Installation nicht zur Verfügung!) Main top left menu > Corpus > Explore Query > export matches Exportformat: Wählen Sie: XML piped through XSLT klicken Sie auf SEARCH, wählen Sie einen Namen für die neue Datai, z.b. TIGERresults Export beinhaltet: whole corpus XML piped through XSLT: bracketing format Import eines Korpus Rufen Sie das Programm TIGERRegistry auf. Klicken Sie auf TIGERCorpora Corpus > Insert Corpus Klicken Sie auf other format. Corpus ID: (zum Beispiel) Tiger Brown-test Corpus ID: (zum Beispiel) Tiger2.1 Import file > Choose > -500 Import file > Choose > all Import Filter > Filters available > general Penn Tree Format Filter (Gilt für Brown Korpus) Import Filter > Filters available > Negra Format Filter (Wichtig: Gilt für das Tiger Korpus!) Behalten Sie alle weiteren Einstellungen wie sie sind Aktivieren Sie extended indexing. Dann: Start Fenster 'Corpus properties' erscheint > OK > Close. Aufgaben für das TIGER-Korpus 1. Finden Sie alle Adjektive, die als Modifikatoren des Lemmas Auftrag auftreten. Geben Sie dem Adjektiv in der Suchanfrage einen Variablennamen (#name:), damit Sie anschließend 4
im Statistikfenster die Lemmata der Adjektive auswerten können. 2. Finden Sie Verben, die mit einem Genitivobjekt auftreten. Markieren Sie den verbalen Kopf mit einer Variable, so dass Sie anschließend im Statistikfenster die Lemmata der Verben auswerten können. Speichern Sie die Statistik der Verblemmata nach Frequenz sortiert. 3. "Wie es im Buche steht." Wird das Dativ -e noch realisiert? Nutzen Sie hierzu auch die Annotation der Morphologie. Speichern Sie die Statistik (Präposition? Artikel? Nomen im Dativ) nach Frequenz sortiert ab. NEU: Abgabe bis (einschließlich) Sonntag, 6.12.2009. 5